Google Gemini AI prova a superare ChatGPT con abilità di foto e video

Google Gemini AI cerca di superare ChatGPT con nuove capacità di immagini e video

Google ha iniziato ad aggiungere una comprensione nativa dei video, dell’audio e delle foto al suo chatbot Bard AI con un nuovo modello chiamato Gemini. I proprietari del telefono Google Pixel 8 saranno tra i primi a sfruttare le sue nuove capacità di intelligenza artificiale.

Le prime incarnazioni della nuova tecnologia sono arrivate mercoledì in dozzine di paesi attraverso l’aggiornamento Gemini di Google Bard, ma solo in inglese. Può fornire abilità di chat basate su testo che Google afferma migliorano le capacità di intelligenza artificiale in compiti complessi come la sintesi di documenti, il ragionamento e la scrittura di codice di programmazione. Il cambiamento più grande con le capacità multimediali — ad esempio la comprensione dei gesti della mano in un video o la scoperta del risultato di un rompicapo di un bambino punto a punto — arriverà “presto”, ha detto Google.

Guarda questo:

Gemini è una drastica novità per l’intelligenza artificiale. La chat basata su testo è importante, ma gli esseri umani devono elaborare informazioni molto più ricche mentre abitiamo il nostro mondo tridimensionale e in continua evoluzione. E rispondiamo con abilità di comunicazione complesse, come la parola parlata e l’immagine, non solo con parole scritte. Gemini è un tentativo di avvicinarci alla nostra comprensione più completa del mondo.

Gemini si presenta in tre versioni adattate a diversi livelli di potenza di calcolo, ha dichiarato Google:

  • Gemini Nano funziona su telefoni cellulari, con due varianti disponibili costruite per diversi livelli di memoria disponibile. Alimenterà nuove funzionalità sui telefoni Pixel 8 di Google, come riassumere le conversazioni nella sua app Recorder o suggerire risposte ai messaggi in WhatsApp digitati con il Gboard di Google.
  • Gemini Pro, ottimizzato per risposte veloci, viene eseguito nei data center di Google e alimenterà una nuova versione di Bard, a partire da mercoledì.
  • Gemini Ultra, limitato a un gruppo di prova per ora, sarà disponibile in un nuovo chatbot avanzato di Bard previsto per l’inizio del 2024. Google non ha fornito dettagli sui prezzi, ma aspettatevi di pagare un premio per questa capacità di alto livello.

La nuova versione mette in evidenza il ritmo frenetico degli avanzamenti nel nuovo campo dell’intelligenza artificiale generativa, in cui i chatbot creano le proprie risposte alle richieste che scriviamo in linguaggio comune anziché istruzioni di programmazione arcana. Il principale concorrente di Google, OpenAI, ha avuto successo con il lancio di ChatGPT un anno fa, ma già Google si trova alla sua terza revisione importante del modello di intelligenza artificiale e prevede di fornire quella tecnologia attraverso prodotti che miliardi di noi utilizzano, come la ricerca, Chrome, Google Docs e Gmail.

“Da tempo volevamo costruire una nuova generazione di modelli di intelligenza artificiale ispirati al modo in cui le persone comprendono e interagiscono con il mondo — un’intelligenza artificiale che si sente più come un collaboratore utile e meno come un pezzo di software intelligente”, ha detto Eli Collins, vicepresidente del prodotto presso la divisione DeepMind di Google. “Gemini ci avvicina un passo più vicino a quella visione.”

OpenAI fornisce anche le basi della tecnologia AI Copilot di Microsoft, inclusa la nuova versione del modello di intelligenza artificiale GPT-4 Turbo rilasciato da OpenAI a novembre. Microsoft, come Google, ha importanti prodotti come Office e Windows a cui sta aggiungendo funzionalità di intelligenza artificiale.

L’intelligenza artificiale diventa più intelligente, ma non è perfetta

Probabilmente il multimedia sarà un grande cambiamento rispetto al testo quando arriverà. Ma ciò che non è cambiato sono i fondamentali problemi dei modelli di intelligenza artificiale addestrati attraverso il riconoscimento di modelli in grandissime quantità di dati del mondo reale. Possono trasformare richieste sempre più complesse in risposte sempre più sofisticate, ma non puoi ancora fidarti che non abbiano semplicemente fornito una risposta plausibile anziché effettivamente corretta. Come avverte il chatbot di Google quando lo usi, “Bard potrebbe mostrare informazioni non accurate, inclusi dati su persone, quindi controlla nuovamente le sue risposte.”

Gemini è la nuova generazione del grande modello di linguaggio di Google, un seguito di PaLM e PaLM 2 che sono stati finora alla base di Bard. Ma addestrando contemporaneamente Gemini su testo, codice di programmazione, immagini, audio e video, è in grado di gestire in modo più efficiente gli input multimediali rispetto a modelli di intelligenza artificiale separati ma collegati per ogni modalità di input.

Esempi delle capacità di Gemini, secondo un documento di ricerca di Google (PDF), sono diversi.

Osservando una serie di forme costituite da un triangolo, un quadrato e un pentagono, può indovinare correttamente che la prossima forma della serie sarà un esagono. Presentato con fotografie della Luna e di una mano che tiene una pallina da golf e chiesto di trovare il collegamento, indica correttamente che gli astronauti dell’Apollo hanno colpito due palline da golf sulla Luna nel 1971. Ha convertito quattro grafici a barre che mostrano le tecniche di smaltimento dei rifiuti paese per paese in una tabella con etichette e ha individuato un punto dati fuori dalla norma, ossia che gli Stati Uniti gettano molto più plastica nella discarica rispetto alle altre regioni.

L’azienda ha anche mostrato Gemini mentre elaborava un problema di fisica scritto a mano che includeva uno schizzo semplice, individuando l’errore di uno studente e spiegando come correggerlo. Un video dimostrativo più complesso ha mostrato Gemini riconoscere una papera blu, marionette, trucchi di prestigio e altri video. Tuttavia, nessuna delle dimostrazioni era in diretta e non è chiaro quanto spesso Gemini inciampi in tali sfide.

Gemini Ultra aspetta ulteriori test prima di essere lanciato l’anno prossimo.

È in corso il “red teaming”, in cui il produttore coinvolge persone per individuare vulnerabilità di sicurezza e altri problemi, per Gemini Ultra. Tali test sono più complicati con dati multimediali di input. Ad esempio, un messaggio di testo e una foto potrebbero sembrare innocui separatamente, ma insieme potrebbero trasmettere significati dramaticamente diversi.

“Stiamo affrontando questo lavoro in modo audace e responsabile,” ha affermato il CEO di Google, Sundar Pichai, in un post sul blog. Ciò significa un mix di ricerche ambiziose con grandi potenziali risultati, ma anche l’aggiunta di precauzioni e la collaborazione con i governi e altri “per affrontare i rischi che l’AI diventa sempre più capace.”

Nota degli editori: ENBLE sta utilizzando un motore di intelligenza artificiale per aiutare a creare alcune storie. Per saperne di più, consulta questo post.