Il RT-2 di DeepMind rende il controllo dei robot una questione di chat AI

DeepMind's RT-2 makes robot control a matter of AI chat.

La versione 2 del trasformatore robotico di DeepMind è un grande modello di linguaggio che viene addestrato non solo su immagini e testo, ma anche su dati di coordinate dei movimenti di un robot nello spazio. Una volta addestrato, può essere presentato con un’immagine e un comando e produrre sia un piano di azione che le coordinate necessarie per completare il comando.

Un elemento chiave del futuro della robotica sarà come gli esseri umani possono istruire le macchine in tempo reale. Ma che tipo di istruzioni sono ancora una questione aperta nella robotica.

Nuove ricerche dell’unità DeepMind di Google propongono che un grande modello di linguaggio, simile a ChatGPT di OpenAI, quando viene fornita un’associazione tra parole e immagini, e un pizzico di dati registrati da un robot, crea un modo per digitare istruzioni a una macchina in modo semplice come si conversa con ChatGPT.

Inoltre: I migliori chatbot AI

L’articolo di DeepMind, “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,” scritto da Anthony Brohan e colleghi e pubblicato all’interno di un post di blog, introduce RT-2, ciò che viene definito un modello “visione-linguaggio-azione”. (C’è anche un repository GitHub correlato.) L’acronimo RT sta per “robotics transformer”.

La sfida consiste nel creare un programma che consuma immagini e testo e produce come output una serie di azioni significative per un robot. “Per consentire ai modelli visione-linguaggio di controllare un robot, devono essere addestrati a produrre azioni”, come affermano gli autori.

L’idea chiave del lavoro è che “rappresentiamo le azioni del robot come un altro linguaggio”, scrivono Brohan e il team. Ciò significa che le azioni registrate da un robot possono diventare la fonte di nuove azioni, proprio come l’addestramento sul testo proveniente da Internet fa generare nuovo testo a ChatGPT.

Inoltre: Questo cane da guerra fa parte di un cervello più grande per la tecnologia di interfaccia uomo-macchina

Le azioni del robot vengono codificate nel transformer robotico come coordinate nello spazio, note come gradi di libertà.

“Lo spazio delle azioni consiste in uno spostamento di posizione e rotazione di 6 gradi di libertà del punto finale del robot, oltre al livello di estensione della pinza del robot e un comando discreto speciale per terminare l’episodio, che dovrebbe essere attivato dalla politica per segnalare il completamento con successo”, spiegano.

I token vengono alimentati nel programma durante l’addestramento nella stessa frase dei token di linguaggio delle parole e dei token di immagini. Le coordinate del robot diventano semplicemente un’altra parte di una frase.

Le azioni del robot vengono codificate nel transformer robotico come coordinate nello spazio, note come gradi di libertà. I token vengono alimentati nel programma durante l’addestramento nella stessa frase dei token di linguaggio delle parole e dei token di immagini. Le coordinate del robot diventano semplicemente un’altra parte di una frase.

L’uso delle coordinate è una pietra miliare significativa. Di solito, la fisica dei robot viene specificata tramite una programmazione a basso livello che è diversa dalle reti neurali di linguaggio e immagini. Qui, tutto viene mescolato insieme.

Il programma RT si basa su due precedenti sforzi di Google, chiamati PaLI-X e PaLM-E, entrambi modelli visione-linguaggio. Come suggerisce il nome, i modelli visione-linguaggio sono programmi che mescolano dati testuali con dati immagine, in modo che il programma sviluppi la capacità di relazionare i due, ad esempio assegnando didascalie alle immagini o rispondendo a una domanda su ciò che c’è in un’immagine.

Inoltre: Cos’è Google Bard? Ecco tutto ciò che devi sapere

Mentre PaLI-X si concentra solo su compiti di immagine e testo, PaLM-E, recentemente introdotto da Google, va un passo oltre utilizzando il linguaggio e l’immagine per guidare un robot generando comandi come output. RT va oltre PaLM-E generando non solo il piano di azione, ma anche le coordinate di movimento nello spazio.

RT-2 “è un significativo avanzamento”, ha dichiarato Sergey Levine, professore associato nel dipartimento di ingegneria elettrica presso l’Università della California a Berkeley, in una corrispondenza via e-mail con ENBLE. “Essenzialmente, RT-2 può essere considerato una versione end-to-end di ciò che PaLM-E + RT1 realizzano, in un unico modello”, ha detto Levine, che ha lavorato al progetto PaLM-E. “Ciò rende il trasferimento di conoscenza su scala Internet ai robot più diretto e potrebbe fornire una classe di approcci più scalabili in futuro.”

Nel caso di RT-2, è un successore della versione dell’anno scorso, RT-1. La differenza tra RT-1 e RT-2 è che il primo RT era basato su un piccolo programma di linguaggio e visione, EfficientNet-B3. Ma RT-2 si basa sul PaLI-X e PaLM-E, dei cosiddetti modelli di linguaggio di grandi dimensioni. Ciò significa che hanno molti più pesi neurali, o parametri, che tendono a rendere i programmi più efficienti. PaLI-X ha 5 miliardi di parametri in una versione e 55 miliardi in un’altra. PaLM-E ne ha 12 miliardi.

La formazione di RT-2 incorpora sia combinazioni di immagini e testo che azioni estratte dai dati del robot registrati.

Una volta che RT-2 è stato addestrato, gli autori eseguono una serie di test, che richiedono al robot di prendere oggetti, spostarli, lasciarli cadere, ecc., tutto digitando comandi in linguaggio naturale e una foto, al prompt, proprio come si chiede a ChatGPT di comporre qualcosa.

Inoltre: 7 suggerimenti avanzati per la scrittura di prompt di ChatGPT che devi conoscere

Ad esempio, quando viene presentato un prompt, in cui l’immagine mostra un tavolo con una serie di lattine e una barretta di cioccolato:

Dato  Istruzione: Prendi l'oggetto che è diverso da tutti gli altri oggetti

Il robot genererà un’azione accompagnata da coordinate per prendere la barretta di cioccolato:

Predizione: Piano: prendi rxbar cioccolato. Azione: 1 128 129 125 131 125 128 127

I numeri a tre cifre sono chiavi di un libro di codici di movimenti di coordinate.

RT-2, dato un prompt, genererà sia un piano d’azione che una serie di coordinate in spacer per eseguire tali azioni.

Un aspetto chiave è che molti elementi dei compiti potrebbero essere oggetti completamente nuovi, mai visti prima. “RT-2 è in grado di generalizzare una varietà di situazioni del mondo reale che richiedono ragionamento, comprensione dei simboli e riconoscimento umano”, affermano.

“Osserviamo una serie di capacità emergenti”, come risultato. “Il modello è in grado di riutilizzare le abilità di prelievo e posizionamento apprese dai dati del robot per posizionare gli oggetti vicino a posizioni semanticamente indicate, come numeri o icone specifiche, nonostante tali indizi non siano presenti nei dati del robot. Il modello può anche interpretare le relazioni tra gli oggetti per determinare quale oggetto prendere e dove posizionarlo, nonostante tali relazioni non vengano fornite nelle dimostrazioni del robot.”

Inoltre: 4 modi per rilevare l’esagerazione dell’intelligenza artificiale generativa dalla realtà

In confronto a RT-1 e ad altri programmi, RT-2 utilizzando sia PaLI-X che PaLM-E è molto più efficiente nel completare i compiti, raggiungendo in media circa il 60% dei compiti con oggetti precedentemente non visti, rispetto a meno del 50% per i programmi precedenti.

Ci sono anche differenze tra PaLI-X, che non è sviluppato specificamente per i robot, e PaLM-E, che lo è. “Notiamo anche che mentre il modello basato su PaLI-X più grande produce risultati migliori in termini di comprensione dei simboli, ragionamento e riconoscimento delle persone in media, il modello basato su PaLM-E più piccolo ha un vantaggio nei compiti che coinvolgono il ragionamento matematico.” Gli autori attribuiscono tale vantaggio “alla diversa miscela di pre-addestramento utilizzata in PaLM-E, che produce un modello più capace di calcoli matematici rispetto a PaLI-X, che è pre-addestrato principalmente visivamente.”

Gli autori concludono che l’uso di programmi di linguaggio-visione-azione può “mettere il campo dell’apprendimento robotico in una posizione strategica per migliorare ulteriormente con gli avanzamenti in altri settori”, in modo che l’approccio possa beneficiare del miglioramento del linguaggio e della gestione delle immagini.

Inoltre: State of IT report: L’intelligenza artificiale generativa diventerà presto di uso comune, affermano 9 leader IT su 10

Tuttavia, c’è una nota di cautela, che riguarda l’idea del controllo del robot in tempo reale. I grandi modelli di linguaggio richiedono molte risorse di calcolo, il che diventa un problema per ottenere risposte.

“Il costo di calcolo di questi modelli è elevato e, se questi metodi vengono applicati in contesti che richiedono un controllo ad alta frequenza, l’inferenza in tempo reale potrebbe diventare un ostacolo importante”, scrivono gli autori. “Una direzione interessante per la ricerca futura è esplorare tecniche di quantizzazione e distillazione che potrebbero consentire a tali modelli di funzionare a velocità più elevate o su hardware meno costoso.”