Come Google e UCLA stanno spingendo l’IA a scegliere la prossima azione per una risposta migliore

Google e UCLA promuovono l'IA per scelte più efficaci

Il programma AVIS di Google può selezionare dinamicamente una serie di passaggi da intraprendere, come ad esempio identificare un oggetto in una foto e cercare informazioni su quell’oggetto.

I programmi di intelligenza artificiale hanno stupefatto il pubblico per come producono una risposta indipendentemente dalla domanda. Tuttavia, la qualità della risposta spesso lascia a desiderare perché programmi come ChatGPT rispondono semplicemente all’input di testo, senza una particolare base nella materia trattata, e possono produrre falsità assolute come risultato.

Un recente progetto di ricerca dell’Università della California e di Google consente invece a grandi modelli di linguaggio come Chat-GPT di selezionare uno strumento specifico – come la ricerca Web o il riconoscimento ottico dei caratteri – che può quindi cercare una risposta in più fasi da una fonte alternativa.

Inoltre: I ricercatori affermano che ChatGPT mente sui risultati scientifici e ha bisogno di alternative open source

Il risultato è una forma primitiva di “pianificazione” e “ragionamento”, un modo per un programma di determinare in ogni momento come affrontare una domanda e, una volta affrontata, se la soluzione è stata soddisfacente.

L’efforto, chiamato AVIS (per “Autonomous Visual Information Seeking with Large Language Models”) da Ziniu Hu e colleghi dell’Università della California a Los Angeles, e autori collaboratori presso Google Research, è pubblicato sul server di pre-stampa arXiv.

AVIS è basato sul Pathways Language Model di Google, o PaLM, un grande modello di linguaggio che ha generato molteplici versioni adattate a una varietà di approcci ed esperienze nell’intelligenza artificiale generativa.

AVIS si inserisce nella tradizione delle recenti ricerche che cercano di trasformare i programmi di apprendimento automatico in “agenti” che agiscono in modo più ampio rispetto alla semplice previsione della parola successiva. Questi includono BabyAGI, un “sistema di gestione delle attività alimentato da intelligenza artificiale” introdotto quest’anno, e PaLM*E, introdotto quest’anno dai ricercatori di Google, che può istruire un robot a seguire una serie di azioni nello spazio fisico.

La grande innovazione del programma AVIS è che – a differenza di BabyAGI e PaLM*E – non segue un percorso predefinito di azione. Invece, utilizza un algoritmo chiamato “Planner” che seleziona tra una scelta di azioni al volo, man mano che si presentano situazioni diverse. Tali scelte vengono generate mentre il modello di linguaggio valuta il testo fornito, scomponendolo in sottodomande e quindi correlando tali sottodomande a un insieme di possibili azioni.

Anche la scelta delle azioni è un approccio innovativo qui.

Inoltre: Google aggiorna Vector AI per consentire alle aziende di addestrare GenAI sui propri dati

Hu e i colleghi hanno effettuato un sondaggio su 10 persone che hanno dovuto rispondere agli stessi tipi di domande – domande come “Qual è il nome dell’insetto?” mostrato in una foto. Le loro scelte di strumenti, come la ricerca di immagini di Google, sono state registrate.

Gli autori hanno quindi inserito quegli esempi di scelte umane in quello che chiamano un “grafo di transizione”, un modello di come gli esseri umani fanno scelte di strumenti in ogni momento.

Il Planner utilizza quindi il grafico, scegliendo tra “esempi pertinenti nel contesto […] che sono assemblati dalle decisioni prese in precedenza dagli esseri umani”. È un modo per far sì che il programma si modelli sulle scelte umane, utilizzando gli esempi passati come ulteriori input per il modello di linguaggio.

Inoltre: L’onda multi-vista dell’intelligenza artificiale sta arrivando, e sarà potente

Per fungere da controllo sulle sue scelte, il programma AVIS dispone di un secondo algoritmo, un “Ragionatore”, che valuta quanto utile sia stato ciascuno strumento dopo che è stato provato dal modello di linguaggio, prima di decidere se produrre una risposta alla domanda originale. Se la scelta di uno strumento particolare non è stata utile, il Ragionatore rimanderà il Planner al punto di partenza.

Il flusso di lavoro totale di AVIS consiste nel formulare domande, selezionare strumenti e quindi utilizzare il Ragionatore per verificare se lo strumento ha prodotto una risposta soddisfacente.

Hu e il team hanno testato AVIS su alcuni test automatizzati standard di risposta a domande visive, come OK-VQA, introdotto nel 2019 da ricercatori dell’Università Carnegie Mellon. In quel test, AVIS ha raggiunto “un’accuratezza del 60,2%, superiore alla maggior parte dei metodi esistenti adattati per questo dataset”, riportano gli autori. In altre parole, l’approccio generale qui sembra superare i metodi che sono stati attentamente adattati per adattarsi a un compito specifico, un esempio della crescente generalità dell’intelligenza artificiale nell’apprendimento automatico.

Inoltre: l’IA generativa si posiziona al primo posto tra le 25 tecnologie emergenti del 2023 secondo Gartner

Nel concludere, Hu e il suo team fanno notare che si aspettano di andare oltre le sole domande sulle immagini nei lavori futuri. “Il nostro obiettivo è estendere il nostro framework dinamico basato su LLM per l’IA decisionale per affrontare altre attività di ragionamento,” scrivono.