L’onda multi-vista dell’IA sta arrivando, e sarà potente.

L'onda multi-vista dell'intelligenza artificiale sta per giungere, pronta a stupire.

Mele multiple

La cosiddetta multi-view è un modo per collegare due segnali diversi considerando le informazioni che condividono sullo stesso oggetto nonostante le differenze. La multi-view potrebbe aprire la strada a macchine in grado di avere una visione più completa della struttura del mondo, contribuendo forse all’obiettivo di macchine che possono “ragionare” e “pianificare”.

L’intelligenza artificiale nella sua forma più riuscita – cose come ChatGPT o AlphaFold di DeepMind per prevedere le proteine – è stata intrappolata in una dimensione sorprendentemente stretta: l’IA vede le cose da un solo lato, come una parola, come un’immagine, come una coordinata nello spazio – come qualsiasi tipo di dato, ma solo uno alla volta.

In tempi molto brevi, le reti neurali stanno per espandersi in modo significativo con una fusione di forme di dati che guarderanno alla vita da molti punti di vista. È uno sviluppo importante, perché potrebbe dare alle reti neurali una base più solida nei modi in cui il mondo si tiene insieme, nei modi in cui le cose si tengono insieme, il che potrebbe essere una fase importante nel movimento verso programmi che un giorno potranno eseguire quello che chiameremmo “ragionamento” e “pianificazione” sul mondo.

Inoltre: Meta presenta ‘Seamless’ traduttore vocale

L’onda imminente di dati multi-laterali ha radici anni di studi da parte dei scienziati dell’apprendimento automatico e generalmente si chiama “multi-view” o, alternativamente, fusione di dati. Esiste persino una rivista accademica dedicata all’argomento, chiamata Information Fusion, pubblicata dalla casa editrice accademica Elsevier.

L’idea profonda della fusione dei dati è che qualsiasi cosa nel mondo che si sta cercando di esaminare ha molti lati contemporaneamente. Una pagina web, ad esempio, ha sia il testo che si vede a occhio nudo, sia il testo di ancoraggio che fa riferimento a quella pagina, o addirittura una terza cosa, il codice HTML e CSS sottostante che è la struttura della pagina.

Un’immagine di una persona può avere sia un’etichetta con il nome della persona, che i pixel dell’immagine. Un video ha una traccia video ma anche l’audio che accompagna quella traccia.

I programmi AI di oggi trattano questi dati diversi come pezzi separati di informazioni sul mondo, con scarsa o nessuna connessione tra di loro. Anche quando le reti neurali gestiscono diversi tipi di dati, come testo e audio, il massimo che fanno è elaborare contemporaneamente questi set di dati – non collegano esplicitamente diversi tipi di dati con la comprensione che sono delle visualizzazioni dello stesso oggetto.

Ad esempio, Meta Properties – proprietaria di Facebook, Instagram e WhatsApp – ha presentato martedì il suo ultimo sforzo in materia di traduzione automatica, una prova di forza nell’utilizzo di molteplici modalità di dati. Il programma, SeamlessM4T, è addestrato sia sui dati vocali che sui dati di testo contemporaneamente e può generare sia il testo che l’audio per qualsiasi compito.

Ma SeamlessM4T non percepisce ogni unità di ogni segnale come un aspetto dello stesso oggetto.

Inoltre: Meta, il generatore di immagini AI dice che la lingua potrebbe essere tutto ciò di cui hai bisogno

Quella visione frammentata delle cose sta iniziando a cambiare. In un recente articolo pubblicato dal professor assistente dell’Università di New York e scholar di Meta, Ravid Shwartz-Ziv, e lo scienziato capo di AI di Meta, Yann LeCun, il duo discute l’obiettivo di utilizzare il multi-view per arricchire le reti neurali di deep learning rappresentando gli oggetti da molteplici prospettive.

Mela in riflessione

Oggetti frammentati in segnali non correlati nelle attuali reti neurali profonde. L’onda imminente di multi-modalità, che utilizza immagini più suoni più testo più nuvole di punti, reti grafiche e molti altri tipi di segnali, potrebbe iniziare a mettere insieme un modello più ricco della struttura delle cose.

Nel tecnicamente avanzato, e piuttosto teorico, articolo, pubblicato sul server di pre-print arXiv a aprile, Shwartz-Ziv e LeCun scrivono che “il successo del deep learning in diversi ambiti applicativi ha portato a un crescente interesse nei metodi multiview, che hanno mostrato risultati promettenti”.

Il multi-view si sta dirigendo verso un momento di destino, visto che le reti neurali sempre più grandi di oggi – come SeamlessM4T – affrontano sempre più modalità, note come intelligenza artificiale “multi-modale”.

Inoltre: I migliori chatbot AI del 2023: ChatGPT e alternative

Il futuro dell’intelligenza artificiale generativa, programmi come ChatGPT e Stable Diffusion, combinerà una varietà di modalità in un unico programma, includendo non solo testo, immagini e video, ma anche nuvole di punti, grafici di conoscenza, dati di bioinformatica e molti altri punti di vista su una scena o su un oggetto.

Le molte modalità diverse offrono potenzialmente migliaia di “viste” delle cose, viste che potrebbero contenere informazioni reciproche, il che potrebbe rappresentare un approccio molto ricco per comprendere il mondo. Ma ciò pone anche delle sfide.

La chiave del multi-view nelle reti neurali profonde è un concetto che Shwartz-Ziv e altri hanno ipotizzato, noto come “bottleneck delle informazioni”. Il bottleneck delle informazioni diventa problematico man mano che il numero di modalità si espande.

Mele attraverso una bottiglia

Un bottleneck delle informazioni è un concetto chiave nell’apprendimento automatico. Nelle strati nascosti di una rete profonda, il ragionamento vuole che l’input della rete venga ridotto a quelle cose essenziali per produrre una ricostruzione dell’input, una forma di compressione e decompressione.

In un bottleneck delle informazioni, vari input vengono combinati in una “rappresentazione” che estrae i dettagli salienti condivisi dagli input come diverse viste dello stesso oggetto. In una seconda fase, tale rappresentazione viene poi ridotta in una forma compressa che contiene solo gli elementi essenziali dell’input necessari per predire un output corrispondente a quell’oggetto. Quel processo di accumulo di informazioni reciproche, e quindi di eliminazione o compressione di tutto tranne gli elementi essenziali, rappresenta il bottleneck delle informazioni.

La sfida per il multi-view nelle grandi reti multi-modalità sta nell’apprendere quali informazioni di tutte le diverse viste siano essenziali per i molti compiti che una potente rete neurale svolgerà con tutte quelle diverse modalità.

Inoltre: Puoi creare il tuo chatbot AI con questo tool drag-and-drop

Come esempio semplice, una rete neurale che svolge un compito basato su testo come ChatGPT, producendo frasi di testo, potrebbe incontrare difficoltà quando deve anche, ad esempio, produrre immagini, se i dettagli rilevanti per quest’ultimo compito sono stati scartati durante la fase di compressione.

Come scrivono Shwartz-Ziv e LeCun, “la divisione delle informazioni in componenti rilevanti e non rilevanti diventa una sfida, che spesso porta a una performance subottimale”.

Non c’è ancora una risposta chiara a questo problema, affermano gli studiosi. Sarà necessaria ulteriore ricerca, in particolare per ridefinire il multi-view da qualcosa che include solo due diverse viste di un oggetto a forse molte viste.

“Per garantire l’ottimalità di questo obiettivo, dobbiamo ampliare l’assunzione multiview includendo più di due viste”, scrivono. In particolare, l’approccio tradizionale al multi-view assume “che le informazioni rilevanti siano condivise tra tutte le diverse viste e attività, il che potrebbe essere eccessivamente restrittivo”, aggiungono. Potrebbe essere che le viste condividano solo alcune informazioni in alcuni contesti.

Inoltre: Così l’intelligenza artificiale generativa cambierà in meglio l’economia gig

“Di conseguenza”, concludono, “definire e analizzare una versione più raffinata di questa soluzione ingenua è essenziale”.

Senza dubbio, la crescita della multimedialità spingerà la scienza del multi-view a ideare nuove soluzioni. L’esplosione della multimedialità nella pratica porterà a nuove scoperte teoriche per l’IA.