Google rilascia Gemini 1.5 Pro migliorando i modelli GenAI con finestre di contesto più ampie

L'ultima aggiunta di Google alla famiglia Gemini GenAI, Gemini 1.5 Pro, presenta una vasta finestra di contesto, ma al momento è disponibile solo in anteprima privata.

Il nuovo modello Gemini di Google può analizzare video della durata di un’ora, ma solo poche persone vi hanno accesso.

Lo scorso ottobre, lo scienziato dei dati di Google, Matei Zaharia, il CTO di Databricks e il professor Pieter Abbeel dell’UC Berkeley hanno pubblicato un paper di ricerca che proponeva un metodo per consentire ai modelli GenAI, come il GPT-4 di OpenAI e il ChatGPT, di elaborare una quantità significativamente maggiore di dati. Lo studio ha dimostrato che, risolvendo un collo di bottiglia di memoria, i modelli possono ora elaborare milioni di parole rispetto alle sole centinaia di migliaia di prima.

Beh, sembra che la ricerca sull’IA stia procedendo a velocità folle perché Google ha appena annunciato il lancio di Gemini 1.5 Pro, l’ultima aggiunta alla sua famiglia di modelli GenAI Gemini. Questo nuovo modello offre vari miglioramenti rispetto al suo predecessore, Gemini 1.0 Pro, con un avanzamento particolarmente significativo: la sua capacità di gestire una quantità massiccia di dati.

Gemini 1.5 Pro può elaborare circa 700.000 parole o circa 30.000 righe di codice. Questo è un impressionante 35 volte in più rispetto a quanto poteva gestire Gemini 1.0 Pro. E la cosa migliore è che Gemini 1.5 Pro non si limita solo al testo. Può anche elaborare fino a 11 ore di audio o un’ora di video in più lingue.

🌟 Gemini 1.5 Pro – La Meraviglia Multimodale 🌟

Per chiarire, i numeri sopra menzionati rappresentano i limiti superiori delle capacità di Gemini 1.5 Pro. La versione disponibile per sviluppatori e clienti nella fase di anteprima limitata può attualmente elaborare solo circa 100.000 parole alla volta. Questo modello di “input di dati di grandi dimensioni” sperimentale è attualmente accessibile solo a sviluppatori approvati come parte di una visualizzazione privata. Tuttavia, alcuni clienti che utilizzano la piattaforma Vertex AI di Google hanno anche accesso a questa versione.

Oriol Vinyals, VP della ricerca di Google DeepMind, ha espresso entusiasmo per questo risultato, sottolineando come interazioni più lunghe e complesse con i modelli GenAI richiedano una finestra di contesto più ampia. In termini più semplici, maggiore è la quantità di informazioni che inserisci e che ottieni dal modello, maggiore contesto è necessario per comprenderle e rispondere efficacemente. Gemini 1.5 Pro ha sbloccato questo lungo contesto in modo massiccio.

Ampio Contesto, Grande Potenziale

L’introduzione di una finestra di contesto ampia nei modelli ha significative implicazioni. I modelli con finestre di contesto ridotte tendono a dimenticare rapidamente le conversazioni recenti, spesso portando a risposte fuori tema o problematiche. Al contrario, i modelli con ampi contesti possono cogliere meglio il flusso narrativo, ottenendo risultati contestualmente più ricchi e rilevanti.

Pur essendoci stati tentativi ed esperimenti precedenti con modelli dotati di finestre di contesto insolitamente ampie, Google è il primo ad offrire commercialmente un modello con tali capacità. In precedenza, il record era detenuto da Anthropic con una finestra di contesto di 200.000 token, ma Google supera tutto ciò con Gemini 1.5 Pro.

🌙 1 Milione di Token – Cosa Puoi Ottenere? 🌙

La dimensione massima della finestra di contesto di Gemini 1.5 Pro è un impressionante 1 milione di token. Sebbene la versione ampiamente disponibile abbia una finestra di contesto di 128.000 token, che corrisponde a quella del GPT-4 Turbo di OpenAI. Questa finestra di contesto estesa apre un mondo di possibilità. Ora puoi analizzare intere librerie di codice, ragionare su documenti lunghi come contratti, impegnarti in lunghe conversazioni con chatbot e persino analizzare e confrontare contenuti video.

In un recente briefing, Google ha presentato due demo preregistrate che mostrano Gemini 1.5 Pro in azione con la finestra di contesto di 1 milione di token abilitata. La prima demo riguardava la ricerca della trascrizione della telecast dello sbarco sulla Luna dell’Apollo 11, che occupa circa 402 pagine, alla ricerca di citazioni contenenti scherzi. Poi, il modello era impegnato nella ricerca di una scena nella telecast che somigliasse a uno schizzo a matita. Nella seconda demo, al modello è stato chiesto di identificare scene dal film “Sherlock Jr.” di Buster Keaton basandosi su descrizioni e schizzi.

Gemini 1.5 Pro ha completato con successo entrambi i compiti, anche se il tempo di elaborazione è stato più lungo rispetto alle normali interrogazioni effettuate con ChatGPT. Ogni compito ha richiesto tra i 20 secondi e un minuto per essere elaborato. Oriol Vinyals ha assicurato che la latenza migliorerà man mano che il modello verrà ulteriormente ottimizzato. Infatti, sono già in corso test per una versione di Gemini 1.5 Pro con una strabiliante finestra di contesto di 10 milioni di token.

💡 Preoccupazioni e Considerazioni 💡

Sebbene le capacità di Gemini 1.5 Pro siano impressionanti, ci sono preoccupazioni riguardanti la sua latenza. Attendere alcuni minuti per cercare tra i contenuti video potrebbe non essere un’esperienza piacevole o scalabile. Inoltre, l’impatto della latenza sulle conversazioni con i chatbot e sull’analisi delle code solleva questioni valide. Durante il briefing, Vinyals ha riconosciuto che queste problematiche sono presenti durante le fasi sperimentali e di ricerca di ogni modello. Il miglioramento in questo ambito è certamente cruciale.

È fondamentale considerare i casi d’uso specifici in cui i vantaggi della grande finestra di contesto di Gemini 1.5 Pro superano gli svantaggi. Per attività come l’analisi dei punti della trama di uno show, la latenza potrebbe non essere giustificata. Tuttavia, quando si tratta di trovare uno screenshot specifico da una scena di un film appena ricordata, il risparmio di tempo potrebbe rendere l’attesa valsa la pena.

Altre miglioramenti notevoli

Gemini 1.5 Pro offre più di una semplice finestra di contesto espansa. Google afferma che in termini di qualità, il modello è “paragonabile” al suo modello principale GenAI, Gemini Ultra. Questo è reso possibile da un’architettura nuova che comprende modelli “esperti” più piccoli e specializzati. Gemini 1.5 Pro suddivide le attività in sottoattività e le assegna ai modelli esperti appropriati in base alle previsioni.

Sebbene questo concetto, noto come Mixture of Experts (MoE), esista da un po’ di tempo, la sua efficacia e flessibilità lo hanno reso sempre più popolare. Questa approccio consente una migliore allocazione delle risorse e un miglioramento complessivo della qualità delle uscite del modello.

🎟️ Prezzi e sviluppi futuri 🎟️

Una delle domande principali che riguardano Gemini 1.5 Pro riguarda i prezzi. Durante la fase di anteprima privata, la versione con la finestra di contesto di 1 milione di token sarà gratuita. Tuttavia, Google prevede di introdurre livelli di prezzo nel prossimo futuro, a partire dalla finestra di contesto standard da 128.000 e scalando fino a 1 milione di token. Sebbene i dettagli specifici dei prezzi non siano stati rivelati durante il briefing, ci si aspetta che la finestra di contesto più grande comporti un costo maggiore. Speriamo che Google affronti questa preoccupazione e fornisca opzioni di prezzo accessibili.

Un altro aspetto da considerare sono le implicazioni per altri modelli all’interno della famiglia Gemini, in particolare Gemini Ultra. I modelli Ultra riceveranno aggiornamenti che si allineano con i miglioramenti delle prestazioni dei modelli Pro? Attualmente, sembra esserci un periodo imbarazzante in cui i modelli Pro disponibili superano i modelli Ultra, che Google sta promuovendo come il top di gamma. Sarebbe molto apprezzata una chiarificazione su questa questione.

⭐ Il futuro dei modelli GenAI ⭐

Il lancio di Gemini 1.5 Pro da parte di Google mostra l’evoluzione e l’avanzamento continui dei modelli GenAI. Man mano che i modelli con finestre di contesto più grandi diventeranno più diffusi, possiamo aspettarci applicazioni ed opportunità ancora più interessanti in vari campi. La capacità di elaborare grandi quantità di dati e di impegnarsi in interazioni complesse formerà senza dubbio il futuro dell’AI.

Per approfondire questo argomento e rimanere aggiornati sulle ultime novità nel campo della tecnologia informatica e della programmazione, date un’occhiata a questi preziosi link:

  1. Gemini di Google – La Nuova Piattaforma Generativa di AI
  2. GPT-4 di OpenAI – Il Prossimo Grande Avanzamento
  3. Sfruttare il Potenziale di ChatGPT
  4. Il Potere di Vertex AI
  5. Rivoluzionare i Modelli Linguistici – L’Approccio di Magic
  6. Tecniche per Espandere le Dimensioni della Finestra di Contesto del Modello
  7. Anthropic – Sfondando i confini delle dimensioni della finestra di contesto del modello

Adesso tocca a te! Cosa ne pensi di Gemini 1.5 Pro di Google e delle sue capacità con la finestra di contesto più ampia? Come immagini che questo sviluppo influenzerà le diverse industrie? Condividi le tue opinioni e unisciti alla conversazione. Non dimenticare di diffondere la voce condividendo questo articolo sui tuoi social media preferiti!

✨💻🚀😄