Google ha appena lanciato Gemini, la sua tanto attesa risposta a ChatGPT

Google ha appena lanciato Gemini, la sua risposta altamente attesa a ChatGPT

L’aumento del parlare di intelligenza artificiale che si sviluppa con una velocità potenzialmente pericolosa non sta certo rallentando le cose. Un anno dopo il lancio di OpenAI di ChatGPT e il conseguente inizio di una nuova corsa per sviluppare la tecnologia dell’IA, Google ha oggi svelato un progetto di intelligenza artificiale concepito per ristabilire la supremazia mondiale dell’azienda nella materria.

Gemini, un nuovo tipo di modello di IA che può lavorare con testo, immagini e video, potrebbe essere l’algoritmo più importante nella storia di Google dopo PageRank, che ha catapultato il motore di ricerca nella psiche pubblica e ha creato un gigante aziendale.

Una versione iniziale di Gemini inizierà a essere lanciata oggi all’interno di Bard, il chatbot di Google per l’ambiente linguistico inglese. Sarà disponibile in più di 170 paesi e territori. Google afferma che Gemini sarà reso disponibile agli sviluppatori tramite l’API di Google Cloud a partire dal 13 dicembre. Una versione più compatta del modello alimente già a partire da oggi le risposte di messaggistica suggerite dalla tastiera degli smartphone Pixel 8. Gemini verrà introdotto in altri prodotti Google, inclusi la ricerca generativa, gli annunci pubblicitari e Chrome nei “prossimi mesi”, afferma l’azienda. La versione di Gemini più potente di tutte debutterà nel 2024, previa “estrema verifica di affidabilità e sicurezza”, afferma Google.

“È un grande momento per noi”, ha dichiarato Demis Hassabis, CEO di Google DeepMind, in un’intervista a ENBLE prima dell’annuncio di oggi. “Siamo entusiasti delle sue prestazioni e non vediamo l’ora di vedere cosa le persone costruiranno partendo da lì”.

Google descrive Gemini come “nativamente multimodale”, perché è stato addestrato su immagini, video e audio anziché solo testo, come i modelli di linguaggio ampiamente utilizzati nel recente boom dell’IA generativa. “È il nostro modello più grande e più capace; è anche il nostro modello più generale”, ha affermato Eli Collins, vice presidente del prodotto per Google DeepMind, durante una conferenza stampa che annunciava Gemini.

Courtesy of Google

Google afferma che ci sono tre versioni di Gemini: Ultra, la più grande e più capace; Nano, significativamente più piccola e più efficiente; e Pro, di dimensioni medie e capacità medie.

A partire da oggi, il chatbot di Google, Bard, simile a ChatGPT, sarà alimentato da Gemini Pro, un cambiamento che, secondo l’azienda, lo renderà in grado di ragionare e pianificare in modo più avanzato. Oggi, una versione specializzata di Gemini Pro viene integrata in una nuova versione di AlphaCode, uno strumento generativo “di ricerca” per la codifica di Google DeepMind. La versione più potente di Gemini, Ultra, verrà inserita in Bard e resa disponibile tramite un’API cloud nel 2024.

Sissy Hsiao, vice presidente di Google e responsabile generale di Bard, afferma che le capacità multimodali del modello hanno dato a Bard nuove competenze e l’hanno reso migliore in compiti come riassumere contenuti, fare brainstorming, scrivere e pianificare. “Questi sono i miglioramenti qualitativi più significativi di Bard da quando lo abbiamo lanciato”, afferma Hsiao.

Google ha presentato diversi demo che illustrano la capacità di Gemini di gestire problemi legati alle informazioni visive. In uno di questi, il modello di IA ha risposto a un video in cui qualcuno disegnava immagini, creava puzzle semplici e chiedeva idee per giochi che coinvolgevano una mappa del mondo. Due ricercatori di Google hanno anche mostrato come Gemini può aiutare nella ricerca scientifica rispondendo a domande su un articolo di ricerca che presenta grafici ed equazioni.

Collins afferma che Gemini Pro, il modello che verrà lanciato questa settimana, ha ottenuto risultati migliori del modello precedente che inizialmente alimentava ChatGPT, chiamato GPT-3.5, su sei delle otto misure comuni utilizzate per testare l’intelligenza del software dell’IA.

Google afferma che Gemini Ultra, il modello che debutterà l’anno prossimo, ottiene un punteggio del 90%, superiore a qualsiasi altro modello, inclusa GPT-4, nel benchmark Massive Multitask Language Understanding (MMLU), sviluppato da ricercatori accademici per testare modelli linguistici su domande su argomenti che includono matematica, storia degli Stati Uniti e legge.

“Gemini è all’avanguardia in un’ampia gamma di benchmark, 30 su 32 tra quelli ampiamente utilizzati nella comunità di ricerca sull’apprendimento automatico”, ha detto Collins. “E così vediamo che sta aprendo nuove frontiere in tutti i settori”.

Il GPT-4 di OpenAI, che attualmente alimenta la versione più avanzata di ChatGPT, ha lasciato sbalordite le persone quando è stato lanciato in marzo di quest’anno. Ha anche spinto alcuni ricercatori a rivedere le loro aspettative su quando l’intelligenza artificiale potrà eguagliare l’ampiezza dell’intelligenza umana. OpenAI ha descritto il GPT-4 come multimodale e a settembre ha aggiornato ChatGPT per elaborare immagini e audio, ma non ha specificato se il modello di base GPT-4 è stato addestrato direttamente su qualcosa di più che testo. ChatGPT può anche generare immagini con l’aiuto di un altro modello di OpenAI chiamato DALL-E 2.

Come fermare un altro crollo di OpenAI

Paresh Dave

OpenAI si impegna ad acquistare $51 milioni di chip per IA da una startup sostenuta dal CEO Sam Altman

Paresh Dave

Come la struttura insolita di OpenAI ha permesso a 4 persone di licenziare Sam Altman

Paresh Dave

Oggi Google ha pubblicato un rapporto tecnico che fornisce alcuni dettagli sulle peculiarità di Gemini. Non rivela le specifiche dell’architettura, la dimensione del modello di intelligenza artificiale o la raccolta di dati utilizzata per addestrarlo.

Il processo lungo e costoso di addestramento dei grandi modelli di intelligenza artificiale su potenti chip informatici significa che Gemini ha probabilmente costato centinaia di milioni di dollari, dicono gli esperti di intelligenza artificiale. Si presume che Google abbia sviluppato un design innovativo per il modello e un nuovo mix di dati di addestramento. L’azienda ha accelerato il rilascio della sua tecnologia di intelligenza artificiale e ha investito risorse in vari nuovi progetti di intelligenza artificiale nel tentativo di oscurare il rumore intorno a ChatGPT di OpenAI e di riaffermarsi come azienda leader mondiale nel settore dell’IA.

“Stiamo vivendo una sorta di corsa agli armamenti”, afferma Oren Etzioni, professore emerito presso l’Università di Washington e ex CEO dell’Allen Institute for AI. “Non c’è motivo di non credere che Gemini sia migliore di GPT-4 in queste valutazioni, ma la prossima versione, GPT-5, sarà ancora migliore di quella”.

Etzioni afferma che si stima che modelli giganti come Gemini costino centinaia di milioni di dollari da sviluppare, ma il premio finale potrebbe essere di miliardi o addirittura di trilioni di dollari di ricavi per l’azienda che domina il mercato dei servizi di intelligenza artificiale basati sul cloud. “Questa è una guerra senza prigionieri, una guerra che bisogna vincere”, afferma.

Google ha inventato alcune tecniche chiave utilizzate in ChatGPT, ma è stato lento nel lanciare la propria tecnologia di chatbot prima dell’uscita di OpenAI circa un anno fa, anche a causa della preoccupazione che potesse dire cose sconvenienti o addirittura pericolose. L’azienda afferma di aver effettuato i suoi test di sicurezza più completi fino ad oggi con Gemini, a causa delle capacità più generali del modello.

Gemini è stato testato utilizzando un insieme di dati con prompt di modello tossici sviluppati dall’Allen Institute for AI. Collins afferma che l’azienda sta collaborando con ricercatori esterni per effettuare ulteriori test sul modello, spingendolo a comportarsi male e scoprire i suoi punti deboli. Senza fornire dettagli specifici, Collins ha detto che la maggiore potenza di Gemini richiede a Google di “aumentare il livello delle verifiche di qualità e sicurezza che dobbiamo effettuare”.

C’è molto in gioco per il nuovo algoritmo di Google e per la sua azienda madre Alphabet, che ha costruito una notevole capacità di ricerca in intelligenza artificiale nell’ultimo decennio. Con milioni di sviluppatori che lavorano con gli algoritmi di OpenAI e Microsoft che utilizza la tecnologia per aggiungere nuove funzionalità ai propri sistemi operativi e software di produttività, Google è stato costretto a rivedere il suo focus come mai prima d’ora.

L’azienda di ricerca ha annunciato per la prima volta che stava lavorando su Gemini alla conferenza I/O di maggio, poiché l’azienda si affrettava ad aggiungere l’IA generativa alla ricerca per contrastare la popolarità di ChatGPT e la minaccia che la tecnologia di OpenAI potesse potenziare il motore di ricerca di Microsoft, Bing. La quota stimata di Google nel mercato globale delle ricerche supera ancora il 90 percento, ma il lancio di Gemini sembra mostrare che l’azienda sta continuando ad intensificare la sua risposta a ChatGPT.

Google DeepMind, la divisione che ha guidato lo sviluppo di Gemini, è stata creata come parte di quella risposta unendo il gruppo principale di ricerca di intelligenza artificiale di Google, Google Brain, con la sua unità di intelligenza artificiale con sede a Londra, DeepMind, in aprile. Ma il progetto Gemini ha coinvolto ricercatori e ingegneri provenienti da tutto Google negli ultimi mesi. È stata utilizzata una versione recentemente aggiornata dei chip di silicio personalizzati di Google per addestrare i modelli di intelligenza artificiale, noti come Tensor Processing Units (TPU).

Gemini è stato chiamato così per segnare l’unione dei due principali laboratori di intelligenza artificiale di Google e come riferimento al Progetto Gemini della NASA, che ha aperto la strada agli allunaggi del programma Apollo.

Alexei Efros, professore presso l’Università di Berkeley specializzato nelle capacità visive dell’IA, ritiene che l’approccio generale di Google con Gemini sembri promettente. “Tutto ciò che utilizza altre modalità è sicuramente un passo nella giusta direzione”, afferma.

Efros ritiene che Gemini, come GPT-4, mostrerà comunque limitazioni evidenti nella sua capacità di comprendere le complessità del mondo reale. Ma lui e gli altri ricercatori difficilmente riusciranno a conoscere tutto ciò che vorrebbero sulla creazione di Google. “Questo è il problema con tutti questi modelli proprietari”, afferma Efros. “Non sappiamo davvero cosa c’è dentro”.