Perché Nvidia sta insegnando ai robot a far girare le penne e come l’IA generativa sta aiutando

Perché Nvidia sta insegnando ai robot a eseguire movimenti freestyle con le penne e come l'IA generativa sta contribuendo

Mano robotica Nvidia che gira una matita

La mano robotica di Nvidia nella simulazione.

Il campo della robotica, una classica applicazione dell’intelligenza artificiale, è stato recentemente ampliato dalla nuova e alla moda tecnologia dell’intelligenza artificiale generativa, programmi come i modelli di linguaggio di OpenAI che possono interagire con affermazioni in linguaggio naturale. 

Ad esempio, Google ha presentato quest’anno l’unità DeepMind, denominata RT-2, un grande modello di linguaggio che può ricevere un’immagine e un comando, e quindi restituire sia un piano d’azione che le coordinate necessarie per completare il comando.

Inoltre: Perché l’ordine sull’intelligenza artificiale di Biden è ostacolato da una vaghezza inevitabile

Tuttavia, c’è una soglia che i programmi generativi non possono superare: possono gestire compiti “di alto livello” come pianificare il percorso di un robot verso una destinazione, ma non possono gestire compiti “di basso livello” come manipolare le articolazioni di un robot per un controllo motorio preciso. 

Nuovi studi di Nvidia pubblicati questo mese suggeriscono che i modelli di linguaggio possano essere più vicini a superare questa divisione. Un programma chiamato Eureka utilizza modelli di linguaggio per impostare obiettivi che possono a loro volta essere utilizzati per guidare i robot a livello basso, compresi compiti di controllo motorio fine come la manipolazione di oggetti da parte di mani robotiche.

Il programma Eureka è solo il primo di molti sforzi che probabilmente saranno necessari per superare questa divisione, poiché Eureka funziona all’interno di una simulazione al computer della robotica; ancora non controlla un robot fisico nel mondo reale. 

“Sfruttare i [grandi modelli di linguaggio] per imparare compiti complessi di manipolazione a basso livello, come far girare una penna con destrezza, rimane un problema aperto”, scrivono l’autore principale Yecheng Jason Ma e i colleghi di Nvidia, l’Università della Pennsylvania, Caltech e l’Università del Texas ad Austin, nel paper “Eureka: progettazione del premio a livello umano tramite modelli di linguaggio estesi,” pubblicato nel server pre-stampa arXiv questo mese. 

C’è anche un blog post correlato di Nvidia. 

Inoltre: Come l’intelligenza artificiale sta ridefinendo l’industria IT in modo rapido e drammatico

L’osservazione di Ma e del suo team concorda con le opinioni di ricercatori di lunga data nel campo della robotica. Secondo Sergey Levine, professore associato nel dipartimento di ingegneria elettrica presso l’Università della California a Berkeley, i modelli di linguaggio non sono una scelta ideale per “l’ultimo tratto, la parte che riguarda il contatto fisico del robot con le cose nel mondo”, poiché tale compito “è per lo più privo di semantica”.

“Potrebbe essere possibile ottimizzare ulteriormente un modello di linguaggio per prevedere anche le prese, ma non è chiaro se questo possa effettivamente aiutare, perché, beh, cosa ti dice il linguaggio riguardo a dove posizionare le dita sull’oggetto?” ha detto Levine a ENBLE. “Forse ti dice qualcosa, ma forse non abbastanza da fare davvero la differenza.”

Il paper Eureka affronta il problema in modo indiretto. Invece di far sì che il modello di linguaggio dica alla simulazione del robot cosa fare, viene utilizzato per creare “premi”, stati obiettivo verso cui il robot può aspirare. I premi sono un metodo consolidato nella cosiddetta apprendimento per rinforzo, una forma di intelligenza artificiale basata sull’apprendimento macchina che Levine di Berkeley e altri robotisti utilizzano per l’addestramento dei robot. 

L’ipotesi di Ma e del suo team è che un grande modello linguistico possa fare un lavoro migliore nell’elaborare tali ricompense per l’apprendimento mediante rinforzo rispetto a un programmatore di intelligenza artificiale umana.

Inoltre: L’IA generativa non riesce a trovare i propri errori. Abbiamo bisogno di suggerimenti migliori?

In un processo noto come “evoluzione delle ricompense”, il programmatore scrive come prompt per GPT-4 tutti i dettagli del problema, i dati sulla simulazione robotica – come i vincoli ambientali su ciò che un robot può fare – e le ricompense che sono già state provate, e chiede a GPT-4 di migliorarlo. GPT-4 elabora quindi nuove ricompense e le testa in modo iterativo.

L’evoluzione è ciò per cui il programma è chiamato: “Evolution-driven Universal REward Kit for Agents”, o Eureka.

L’outline di come funziona Eureka: considera tutti i design di base del programmatore umano per la simulazione robotica, crea molte ricompense e le testa in modo iterativo.

Ma e il suo team hanno messo alla prova la loro invenzione su molte simulazioni di compiti come far aprire un cassetto a un braccio robotico. Eureka, affermano, “raggiunge prestazioni al livello umano nella progettazione delle ricompense in una suite diversificata di 29 ambienti RL open-source che includono 10 morfologie robotiche distinte, tra cui quadrupede, quadricottero, bipede, manipolatore e diverse mani destre abili”.

Un gruppo di compiti di simulazione robotica per i quali il programma Eureka ha creato ricompense.

“Senza prompt di attività specifici o modelli di ricompensa, Eureka genera autonomamente ricompense che superano le ricompense umane esperte per l’83% dei compiti e realizza un miglioramento normalizzato medio del 52%”, riferiscono.

Uno degli esempi più sorprendenti di ciò che hanno ottenuto è far sì che una mano robotica simulata faccia girare una penna come farebbe uno studente annoiato in classe. “Consideriamo il twirling della penna, in cui una mano a cinque dita deve far ruotare rapidamente una penna in configurazioni di rotazione predefinite per il maggior numero possibile di cicli”, scrivono. Per farlo, combinano Eureka con un approccio di apprendimento automatico sviluppato alcuni anni fa chiamato “apprendimento curricolare”, in cui un compito viene suddiviso in fasi più semplici.

Inoltre: L’IA generativa supererà di gran lunga ciò che può fare ChatGPT. Ecco tutto sui progressi tecnologici.

“Dimostriamo per la prima volta rapidi movimenti di twirling della penna su una mano ombreggiata antropomorfica simulata”, affermano.

Gli autori fanno anche una scoperta sorprendente: se combinano le ricompense migliorate di Eureka con le ricompense umane, la combinazione ottiene risultati migliori nei test rispetto alle sole ricompense umane o di Eureka. Suppongono che la ragione sia che gli umani hanno una parte del puzzle che il programma Eureka non ha, ovvero una conoscenza dello stato delle cose.

“I designer umani sono generalmente informati sulle variabili di stato rilevanti, ma sono meno competenti nel progettare le ricompense utilizzandole”, scrivono. “Questo ha senso intuitivo poiché identificare le variabili di stato rilevanti che dovrebbero essere incluse nella funzione di ricompensa richiede principalmente ragionamento basato sul buon senso, ma la progettazione delle ricompense richiede conoscenze specializzate ed esperienza nell’apprendimento mediante rinforzo”.

Ciò indica la possibilità di una partnership umano-IA simile a GitHub Copilot e altri programmi assistenti: “Insieme, questi risultati dimostrano la capacità di assistente di Eureka nelle ricompense, che integra perfettamente le conoscenze dei designer umani sulle variabili di stato utili e compensa la loro minore competenza sulla progettazione delle ricompense utilizzandole”.