Il nuovo Gemini AI di Google capirà le tue foto e video, non solo il testo

Il nuovo Gemini AI di Google comprende anche le tue foto e i tuoi video, non solo il testo.

Google ha iniziato a introdurre una comprensione nativa dei video, audio e foto nel suo chatbot Bard AI con un nuovo modello chiamato Gemini.

Le prime versioni della nuova tecnologia sono arrivate mercoledì in dozzine di paesi, ma solo in inglese, fornendo abilità di chat basate su testo che Google afferma migliorano le capacità dell’IA in compiti complessi come il riassunto dei documenti, il ragionamento e la scrittura del codice di programmazione. Il cambiamento più grande con le capacità multimediali, ad esempio la comprensione dei dati sottostanti un grafico o la determinazione del risultato di un rompicapo di disegno a punti di un bambino, arriverà “presto”, ha detto Google.

La nuova versione rappresenta una separazione drammatica per l’IA. La chat basata su testo è importante, ma gli esseri umani devono elaborare informazioni molto più ricche mentre abitiamo il nostro mondo tridimensionale in continua evoluzione. E rispondiamo con abilità di comunicazione complesse, come il linguaggio parlato e le immagini, non solo con parole scritte. Gemini è un tentativo di avvicinarsi alla nostra più completa comprensione del mondo.

Gemini ha tre versioni adattate a diversi livelli di potenza di calcolo, ha detto Google:

  • Gemini Nano lavora su telefoni cellulari, con due varianti disponibili costruite per diversi livelli di memoria disponibile. Alimenterà nuove funzionalità sui telefoni Google Pixel 8, come il riassunto delle conversazioni nella sua app Recorder o la suggerimento di risposte ai messaggi in WhatsApp digitate con Gboard di Google.
  • Gemini Pro, ottimizzato per risposte rapide, funziona nei data center di Google e fornirà energia a una nuova versione di Bard, a partire da mercoledì.
  • Gemini Ultra, limitato a un gruppo di test per ora, sarà disponibile in una nuova chatbot Bard Advanced prevista per l’inizio del 2024. Google ha rifiutato di rivelare i dettagli dei prezzi, ma si prevede di pagare un premio per questa capacità superiore.

La nuova versione mette in evidenza la velocità frenetica di avanzamento nel nuovo campo dell’IA generativa, in cui i chatbot creano le proprie risposte alle richieste che scriviamo nel linguaggio semplice anziché nelle istruzioni di programmazione arcane. Il principale concorrente di Google, OpenAI, ha fatto un passo avanti con il lancio di ChatGPT un anno fa, ma Google è già alla terza revisione importante del modello di AI e si aspetta di fornire quella tecnologia attraverso prodotti che miliardi di persone utilizzano, come la ricerca, Chrome, Google Docs e Gmail.

“Da molto tempo volevamo costruire una nuova generazione di modelli di IA ispirati al modo in cui le persone comprendono e interagiscono con il mondo – un’IA che si sente più come un collaboratore utile e meno come un pezzo intelligente di software”, ha detto Eli Collins, vicepresidente del prodotto presso la divisione DeepMind di Google. “Gemini ci avvicina un passo più vicino a quella visione”.

Anche OpenAI fornisce l’intelligenza dietro la tecnologia Microsoft Copilot, inclusa la nuova versione di GPT-4 Turbo AI rilasciata da OpenAI a novembre. Microsoft, come Google, ha importanti prodotti come Office e Windows a cui sta aggiungendo funzionalità di AI.

L’IA sta diventando più intelligente, ma non è perfetta

È probabile che i contenuti multimediali rappresentino un grande cambiamento rispetto al testo quando arriverà. Ma ciò che non è cambiato sono i problemi fondamentali dei modelli di IA addestrati riconoscendo schemi in grandi quantità di dati del mondo reale. Possono trasformare richieste sempre più complesse in risposte sempre più sofisticate, ma non puoi ancora fidarti che non abbiano appena fornito una risposta plausibile anziché corretta. Come avverte il chatbot di Google quando lo utilizzi, “Bard potrebbe mostrare informazioni inesatte, anche su persone, quindi verifica le sue risposte”.

Gemini è la nuova generazione del grande modello linguistico di Google, un seguito del PaLM e del PaLM 2 che finora sono stati la base di Bard. Ma addestrando Gemini contemporaneamente a testo, codice di programmazione, immagini, audio e video, può gestire in modo più efficiente l’input multimediale rispetto a modelli di IA separati ma interconnessi per ogni modalità di input.

Esempi delle capacità di Gemini, secondo un articolo di ricerca di Google, sono diversi.

Osservando una serie di forme costituite da un triangolo, un quadrato e un pentagono, può indovinare correttamente che la forma successiva nella serie è un esagono. Presentato con foto della luna e di una mano che tiene una pallina da golf e chiesto di trovare il collegamento, indica correttamente che gli astronauti dell’Apollo hanno colpito due palline da golf sulla luna nel 1971. Ha convertito quattro grafici a barre che mostrano le tecniche di smaltimento dei rifiuti paese per paese in una tabella etichettata e ha individuato un punto dati anomalo, ossia che gli Stati Uniti gettano molto più plastica nella discarica rispetto ad altre regioni.

L’azienda ha mostrato anche Gemini mentre elabora un problema di fisica scritto a mano che coinvolge uno schizzo semplice, individuando l’errore dello studente e spiegando una correzione. Un video dimostrativo più complesso ha mostrato Gemini che riconosceva una papera blu, marionette, trucchi di prestigio e altri video. Tuttavia, nessuno dei demo era in diretta e non è chiaro quanto spesso Gemini faccia errori in tali sfide.

Gemini Ultra attende ulteriori test prima di essere lanciato l’anno prossimo.

È in corso il “red teaming”, in cui il produttore del prodotto coinvolge persone per individuare vulnerabilità di sicurezza e altri problemi per Gemini Ultra. Tali test sono più complicati con dati di input multimediali. Ad esempio, un messaggio di testo e una foto potrebbero essere inoffensivi quando presi singolarmente, ma quando combinati potrebbero avere significati molto diversi.

“Stiamo affrontando questo lavoro con audacia e responsabilità”, ha affermato Sundar Pichai, CEO di Google, in un post sul blog. Ciò significa combinare ricerca ambiziosa con grandi potenziali vantaggi, ma anche aggiungere garanzie e collaborare con i governi e altri soggetti “per affrontare rischi man mano che l’IA diventa più capace”.

Note degli editori: ENBLE sta utilizzando un motore di intelligenza artificiale per creare alcune storie. Per saperne di più, consulta questo articolo.