Crediti immagine: TechCrunch
Google sta cercando di fare colpo con Gemini, una nuova piattaforma di intelligenza artificiale generativa che ha recentemente debuttato. Ma mentre i Gemelli si mostrano promettenti in alcuni aspetti, non sono all’altezza in altri. Allora cos'è i Gemelli? come si puó usare? Come si confronta con la concorrenza?
Per rendere più semplice tenere il passo con gli ultimi sviluppi di Gemini, abbiamo messo insieme questa pratica guida, che continueremo ad aggiornare man mano che verranno rilasciati nuovi modelli e funzionalità Gemini.
Cos'è i Gemelli?
Gemelli è Google L'ho promesso molto tempo fa, una famiglia di modelli IA di prossima generazione, sviluppata dai laboratori di ricerca AI di Google DeepMind e Google Research. Disponibile in tre gusti:
- Gemelli Ultrail modello di punta dei Gemelli
- Gemelli Prol’archetipo dei Gemelli “leggeri”.
- Gemelli NanoÈ un modello più piccolo e “distillato” che funziona su dispositivi mobili come Pixel 8 Pro
Tutti i modelli Gemini sono addestrati per essere “nativamente multimodali” – in altre parole, in grado di lavorare e utilizzare più del semplice testo. Sono pre-addestrati e ben sintonizzati su una varietà di file audio, immagini e video, un'ampia gamma di basi di codice e testi in diverse lingue.
Ciò distingue Gemini da modelli come LaMDA di Google, che viene addestrato solo su dati testuali. LaMDA non è in grado di comprendere o generare altro che testo (come articoli, bozze di email, ecc.), ma questo non è il caso dei moduli Gemini. La loro capacità di comprendere immagini, suoni e altre modalità è ancora limitata, ma è meglio di niente.
Qual è la differenza tra Bardo e Gemelli?
Google ha dimostrato ancora una volta di non avere talento nel branding e non ha chiarito fin dall'inizio che Gemini era separato e distinto da Bard. Bard è semplicemente un'interfaccia attraverso la quale è possibile accedere ad alcuni modelli Gemini: consideralo come un'applicazione o un client per Gemini e altri modelli di intelligenza artificiale. Gemini, d'altra parte, è una famiglia di modelli, non un'applicazione o un front-end. Non esiste un’esperienza Gemelli indipendente ed è improbabile che ci sarà mai. Se dovessi fare un confronto con i prodotti OpenAI, Bard è compatibile con ChatGPT, la popolare applicazione AI conversazionale di OpenAI, e Gemini è compatibile con il modello linguistico che esegue, che nel caso di ChatGPT è GPT-3.5 o 4.
Per inciso, Gemini è anche completamente indipendente da Imagen-2, un modello da testo a immagine che può o meno adattarsi alla strategia generale di intelligenza artificiale dell'azienda. Non preoccuparti, non sei l'unico confuso da questo!
Cosa possono fare i Gemelli?
Poiché i modelli Gemini sono multimodali, possono teoricamente svolgere una serie di compiti, dalla trascrizione del parlato all’annotazione di foto e video e persino alla creazione di opere d’arte. Finora solo alcune di queste funzionalità sono arrivate alla fase di prodotto (ne parleremo più avanti), ma Google le promette tutte – e altre – in un futuro non così lontano.
Certo, è un po' difficile prendere l'azienda in parola.
Google seriamente non ha mantenuto i risultati con il lancio originale di Bard. Recentemente, ha realizzato un video che pretende di mostrare le abilità dei Gemelli che si sono rivelate altamente manipolate e piuttosto ambiziose. gemello Lui èA merito del gigante della tecnologia, oggi è disponibile in qualche forma, ma in una forma piuttosto limitata.
Tuttavia, supponendo che Google sia in qualche modo onesto nelle sue affermazioni, ecco cosa saranno in grado di fare i diversi livelli dei modelli Gemini una volta rilasciati:
Gemelli Ultra
Poche persone hanno messo le mani sul modello Gemini Ultra, il modello “base” su cui sono stati costruiti altri finora: solo un “gruppo selezionato” di clienti in alcune app e servizi Google. Ciò non cambierà fino alla fine dell'anno, quando il modello più grande di Google verrà lanciato su scala più ampia. La maggior parte delle informazioni sull'Ultra provengono da demo dei prodotti guidate da Google, quindi è meglio prenderle con le pinze.
Google afferma che Gemini Ultra può essere utilizzato per aiutare con cose come i compiti di fisica, risolvere problemi passo dopo passo su un foglio di lavoro e evidenziare potenziali errori nelle risposte già compilate. Gemini Ultra può essere applicato anche a compiti come identificare articoli scientifici rilevanti per un particolare problema, afferma Google, estraendo informazioni da tali articoli e “aggiornando” un grafico da uno di essi creando le formule necessarie per ricreare il grafico con dati più recenti .
Gemini Ultra supporta tecnicamente la creazione di immagini, come notato in precedenza. Ma questa funzionalità non troverà spazio nella versione di produzione del modello al momento del lancio, secondo Google, forse perché il meccanismo è più complesso del modo in cui app come ChatGPT generano immagini. Invece di fornire i suggerimenti a un generatore di immagini (come DALL-E 3, nel caso di ChatGPT), Gemini trasmette le immagini “localmente” senza passaggi intermedi.
Gemelli Pro
A differenza del Gemini Ultra, il Gemini Pro è oggi disponibile al grande pubblico. Ma, in modo confuso, le sue capacità dipendono da dove viene utilizzato.
Google afferma che a Bard, dove Gemini Pro è stato lanciato per la prima volta in formato solo testo, il modello rappresenta un miglioramento rispetto a LaMDA nelle sue capacità di ragionamento, pianificazione e comprensione. indipendente Stare I ricercatori della Carnegie Mellon University e BerriAI hanno scoperto che Gemini Pro è in realtà migliore di GPT-3.5 di OpenAI nel gestire catene di ragionamento più lunghe e complesse.
Ma lo studio ha anche scoperto che, come tutti i modelli linguistici di grandi dimensioni, Gemini Pro in particolare lotta con problemi matematici che coinvolgono più numeri, e gli utenti hanno trovato molti esempi di cattivi ragionamenti ed errori. Ho commesso molti errori fattuali per domande semplici come chi ha vinto gli Oscar più recenti. Google ha promesso miglioramenti, ma non è chiaro quando arriveranno.
Gemini Pro è disponibile anche tramite un'API in Vertex AI, la piattaforma di sviluppo AI completamente gestita di Google, che accetta testo come input e genera testo come output. Un endpoint aggiuntivo, Gemini Pro Vision, può elaborare il testo E Immagini, incluse foto e video, e output di testo modellati sul modello GPT-4 di OpenAI con modello di visione.
All'interno di Vertex AI, gli sviluppatori possono personalizzare Gemini Pro per contesti e casi d'uso specifici utilizzando un processo di messa a punto o “radicamento”. Gemini Pro può anche essere collegato ad API esterne di terze parti per eseguire determinate azioni.
All'inizio del 2024, i clienti Vertex potranno accedere a Gemini Pro per eseguire agenti vocali e di chat personalizzati (ovvero chatbot). Gemini Pro diventerà anche un'opzione per gestire le funzionalità di riepilogo della ricerca, raccomandazione e generazione di risposte di Vertex AI, attingendo a documenti intermodali (come PDF e immagini) da diverse fonti (come OneDrive e Salesforce) per soddisfare le query.
In AI Studio, lo strumento basato sul Web di Google per sviluppatori di app e piattaforme, sono disponibili flussi di lavoro per la creazione di istruzioni strutturate e in formato libero e istruzioni di chat con Gemini Pro. Gli sviluppatori hanno accesso agli endpoint Gemini Pro e Gemini Pro Vision e possono regolare la temperatura del modello per controllare la gamma creativa dell'output e fornire esempi per dare istruzioni su tono e stile, oltre a regolare le impostazioni di sicurezza.
Gemelli Nano
Il Gemini Nano è una versione molto più piccola dei modelli Gemini Pro e Ultra ed è abbastanza potente da funzionare direttamente su (alcuni) telefoni anziché inviare il lavoro a un server da qualche parte. Finora alimenta due funzionalità di Pixel 8 Pro: Riepiloga in Registratore e Risposta intelligente in Gboard.
L'app Registratore, che consente agli utenti di premere un pulsante per registrare e trascrivere l'audio, include un riepilogo basato su Gemini delle conversazioni, interviste, presentazioni e altri estratti registrati. Gli utenti ricevono questi riepiloghi anche se non hanno un segnale o una connessione Wi-Fi disponibile e, in un omaggio alla privacy, nessun dato lascia il telefono durante il processo.
Gemini Nano è presente anche in Gboard, l'app per tastiera di Google, come file Aspetto dello sviluppatore. Lì entra in gioco una funzionalità chiamata Risposta intelligente, che aiuta a suggerire la cosa successiva che vuoi dire durante una conversazione nell'app di messaggistica. Google afferma che la funzione inizialmente funziona solo con l'applicazione WhatsApp, ma raggiungerà più applicazioni nel 2024.
Gemini è migliore del GPT-4 di OpenAI?
Non c'è modo di sapere come sta la famiglia di Gemini veramente Non sarà fino a quando Google non rilascerà Ultra entro la fine dell'anno, ma la società rivendica miglioramenti allo stato dell'arte, che in genere è GPT-4 di OpenAI.
Google ha più volte elogiato la superiorità di Gemini nei benchmark, sostenendo che Gemini Ultra supera gli attuali risultati all'avanguardia su “30 benchmark accademici ampiamente utilizzati su 32 utilizzati nella ricerca e nello sviluppo di grandi modelli linguistici”. L'azienda afferma che Gemini Pro, nel frattempo, è più capace di eseguire attività come il riepilogo dei contenuti, il brainstorming e la scrittura rispetto a GPT-3.5.
Ma lasciando da parte la questione se i benchmark puntino davvero a un modello migliore, i risultati riportati da Google sembrano solo marginalmente migliori rispetto ai corrispondenti modelli OpenAI. Come accennato in precedenza, alcune prime impressioni non sono state eccezionali, con gli utenti e Accademici Sottolineando che Gemini Pro tende a fraintendere i fatti di base, ha difficoltà con le traduzioni e fornisce suggerimenti di codice scadenti.
Quanto costerà i Gemelli?
Gemini Pro può essere utilizzato gratuitamente in Bard e, al momento, in AI Studio e Vertex AI.
Tuttavia, una volta che Gemini Pro sarà fuori dall'anteprima in Vertex, il modello costerà $ 0,0025 per personaggio mentre l'output costerà $ 0,00005 per personaggio. I clienti Vertex pagano per 1.000 caratteri (da circa 140 a 250 parole) e, nel caso di modelli come Gemini Pro Vision, per immagine ($ 0,0025).
Diciamo che un articolo di 500 parole contiene 2.000 caratteri. Riassumere questo articolo utilizzando Gemini Pro costerà $ 5. Mentre, generazione Un articolo di lunghezza simile costerebbe $ 0,1.
Dove puoi provare i Gemelli?
Gemelli Pro
Il posto più semplice per provare Gemini Pro è a Bard. Esiste attualmente una versione Pro migliorata che risponde alle query di testo di Bard in inglese negli Stati Uniti, con ulteriori lingue e paesi supportati in arrivo in futuro.
Gemini Pro è accessibile anche in anteprima in Vertex AI tramite API. L'utilizzo dell'API è gratuito “entro alcuni limiti” al momento e supporta 38 lingue e regioni, inclusa l'Europa, oltre a funzionalità come chat e funzioni di filtro.
Altrove, Gemini Pro può essere trovato in AI Studio. Utilizzando il servizio, gli sviluppatori possono replicare prompt e chatbot basati su Gemini e quindi ottenere chiavi API da utilizzare nelle loro applicazioni o esportare il codice in un IDE con più funzionalità.
Duetto AI per sviluppatori, la suite di Google di assistenti basati sull'intelligenza artificiale per il completamento e la generazione del codice, inizierà a utilizzare il modello Gemini nelle prossime settimane. Google prevede di portare Gemini Models negli strumenti di sviluppo per la piattaforma di sviluppo mobile Chrome e Firebase nello stesso periodo, all'inizio del 2024.
Gemelli Nano
Gemini Nano è presente su Pixel 8 Pro e sarà disponibile su altri dispositivi in futuro. Gli sviluppatori interessati possono integrare il modulo nelle loro applicazioni Android sottoscrizione Per dare una sbirciatina.
Manterremo aggiornato questo post con gli ultimi sviluppi.