Come la VR e l’AR di Meta potrebbero trasformarsi tramite l’intelligenza artificiale

Il potenziale della VR e AR di Meta con l'intelligenza artificiale

Come tutti nel settore tecnologico annunciano l’IA in tutto e Apple si prepara per il suo primo visore VR/AR l’anno prossimo, le ultime notizie di Meta alla conferenza Connect dell’azienda rivolta agli sviluppatori si estendono su entrambi i fronti contemporaneamente. In un certo senso, i prodotti annunciati erano semplici: un nuovo Quest 3 con grafica potenziata e gli occhiali Ray-Ban migliorati con fotocamera e audio che arriveranno più avanti questo mese. Meta ha anche annunciato una serie di chatbot basati su personalità e uno strumento di generazione di immagini e adesivi chiamato Emu basato sull’IA.

Ho seguito i movimenti di Meta in VR e AR fin da prima che Oculus fosse acquisito da Facebook, e ho persino visitato i laboratori di ricerca di Meta l’anno scorso alla ricerca di segnali su dove si sta dirigendo il futuro. Ma alla fine del 2023, sembra più che mai che i prodotti che abbiamo imparato a riconoscere come “VR” e “occhiali intelligenti” stiano trasformandosi. Il Quest 3 ha funzioni di realtà mista simili all’Apple Vision Pro, sembrando a volte come occhiali AR in forma di VR. Gli occhiali, l’anno prossimo, inizieranno ad avere a bordo l’IA che riconoscerà oggetti e tradurrà testi, agendo quasi come versioni senza display dei Google Glass o come una sorta di prototipo di occhiali AR iniziali. E entrambi dovrebbero essere in grado di eseguire forme di IA conversazionale di Google e forse molto altro, grazie all’ultima generazione di chip più potenti di Qualcomm.

Guarda questo:

Per avere una migliore comprensione di come Meta combinerà VR, AR e IA, ho parlato con il CTO di Meta e responsabile del prodotto, Andrew Bosworth, per chiedere del futuro. Cosa ne pensi del dispositivo previsto da Samsung? Dove è il tracciamento degli occhi, che era presente su Quest Pro ma è una funzione mancante su Quest 3? E cosa ne pensi di Beat Saber in realtà mista?

La seguente conversazione è stata leggermente modificata per chiarezza e lunghezza.

Dove vedi il rapporto tra Quest 3 di Meta, gli occhiali intelligenti e l’IA? Bosworth: Se dovessi disegnare un diagramma a caselle e frecce dell’architettura che abbiamo immaginato per AR per molto tempo, una delle caselle è come, IA… ? (ride) È così raro in questo settore che una tecnologia arrivi e risolva il tuo problema senza che tu la cerchi attivamente. Ma è più o meno quello che è successo [con l’IA].

Se mi avessi chiesto a me e a [il capo scienziato di Meta Reality Labs] Michael Abrash, due anni fa, anche forse l’anno scorso, qual è il rischio più grande per far funzionare l’AR… per quanto siano duri quei display, per quanto sia difficile il rendering, sarebbe stato l’IA. Le tue aspettative come essere umano di avere un’interfaccia che possa vedere quello che tu vedi, sentire dove tu senti, avere il buon senso sono alte. E la nostra capacità di fornire buon senso è bassa. Questo è il problema.

Siamo molto fiduciosi riguardo a [questa nuova IA di Meta]; ha davvero risolto il problema per noi. Era uno che pensavamo di avere più tempo per risolvere. L’IA è sempre stata una parte critica della nostra visione. È solo che ora possiamo metterla in pratica.

Da un po’ di tempo, Meta promette occhiali intelligenti con assistente IA che può vedere quello che vedi tu. Come si stanno realizzando questi passi sugli occhiali Ray-Ban l’anno prossimo? Bosworth: Al momento, gli occhiali, dal punto di vista energetico, devi attivarli. Nel tempo, arrivare al punto in cui abbiamo sensori abbastanza a basso consumo energetico che sono in grado di rilevare un evento che attiva una consapevolezza che attiva l’IA, questo è il vero sogno a cui stiamo lavorando. E stiamo lavorando su quei sensori, stiamo lavorando su quella rilevazione dell’evento. Semplicemente non avevamo una grande soluzione per quello che chiamavamo in precedenza “il direttore d’orchestra”, che è la cosa che decide… è questo il momento giusto? Tu ed io stiamo parlando faccia a faccia, quindi dovremmo probabilmente eliminare le interfacce [su un paio di futuri occhiali AR]. Se mia moglie mi manda un messaggio riguardo alla spesa, tienilo fuori. Ma se mi mandi un messaggio che i bambini sono malati e hanno bisogno del mio aiuto immediato, fallo apparire. Come si fa a fare questo?

Abbiamo imparato molto passando dalla generazione 1 alla generazione 2, passando a questi occhiali Meta Ray-Ban. Vediamo progressi su due fronti: sull’hardware, dove stiamo migliorando iterativamente la qualità e abbassando i costi. E stiamo risolvendo uno dei problemi critici del software che avevamo con l’IA.

Chatbot basati sull’IA di Meta, con personalità e volti di celebrità, appariranno sulle app di Facebook e in VR su Quest 3, ma non ancora sugli occhiali intelligenti.

Scott Stein/CNET

Questi occhiali IA avranno anche personalità, o saranno solo un assistente generale? Bosworth: L’IA di Meta è più un modello di agente. Quindi penso che il futuro dell’IA sia probabilmente diviso tra agenti, queste cose esterne a cui vai, hanno la loro atmosfera particolare, ci vai e interagisci con loro, e ciò che chiamerò un assistente personale.

Gli occhiali AR vedranno tutto ciò che vedo; vedranno ogni messaggio privato che invio. Vedranno ogni sito web che visito. E voglio che facciano questo perché mi aiuterà ad aiutarmi, e sarà fantastico. Devono essere privati. Come, davvero privati. Sai, come, davvero discreti.

Potrebbero anche, tramite plugin, pianificare appuntamenti per me? Certo. Possono anche rispondere ai messaggi al mio posto? Certo, posso fidarmi di loro. Ma devono essere miei. Il mio agente privato e personale. E non si tratta dell’assistente Meta AI. Meta AI è il tuo agente generico. Un agente con cui posso venire a parlare – sai, cose generali. È da questo che inizieremo qui. Quello che penso popolerà alla fine l’AR è una versione molto personale di quella. Che ha, sperabilmente, una memoria estesa, ha la capacità di imparare e conoscerti … e un’incredibile discrezione.

Il Quest 3 sembra un punto di accesso al futuro della realtà mista. Ma ci sono molte possibilità di evoluzione, come gli augmenti, quelle cose dei widget [che hai annunciato]. Come vedi il Quest 3 nel futuro? Bosworth: La gente si dimentica che quando [Oculus] Rift è uscito, nessuno sapeva come fare la locomozione in VR. Nessuno sapeva come fare queste cose di base. Un gioco ci riusciva con una grande meccanica. E poi ogni gioco era tipo ‘imita quello’. I consumatori imparavano quella meccanica. E ora la conoscono e non è più difficile.

Abbiamo molte idee su perché pensiamo che [la realtà mista] sia fantastica. Stiamo facendo molte cose. Non penso che conosciamo nemmeno la metà. Gli sviluppatori scopriranno cose nuove ed emozionanti. Ci sono parti della realtà mista che penso siano più sviluppate. Abbiamo un gioco di invasione aliena, First Encounters, in cui gli alieni passano attraverso i muri. Comprendiamo queste cose nel contesto dei giochi classici. Ci sono parti della realtà mista che sono semplicemente versioni interessanti di cose che conosciamo bene. Questo è valore, giorno uno. Poi ci sono gli augmenti: scopriamoli.

Una delle ragioni per cui è così importante per noi iniziare quel lavoro ora è che alla fine diventa l’ecosistema AR nel tempo. Ci vuole molto tempo da qui a lì, ma non si può iniziare abbastanza presto.

Arriveranno presto un sacco di giochi pronti per il Quest 3, ma non Beat Saber (ancora).

Scott Stein/CNET

Perché non c’è ancora Beat Saber per la realtà mista [su Quest 3]? Perché sembra essere l’applicazione perfetta. La stessa cosa con Supernatural, la tua app di fitness. Bosworth: Abbiamo valutato internamente una versione di Beat Saber per la realtà mista. È stato più difficile da fare di quanto si pensasse. Quando quei cubi si trovano a una grande distanza da te, quando hai uno sfondo nero molto scuro, li puoi vedere e il tuo cervello si affida molto di più a quello di quanto tu possa immaginare. Quando hai un ambiente affollato e ben illuminato, potrebbe essere davvero difficile vederli. Il mio punto è che è uno di quei giochi che pensi, oh, questo è semplice da fare… e poi lo fai e ti rendi conto che in realtà c’è molta più sottigliezza e sfumatura di quanto pensavamo. Quindi continui a lavorarci. Di nuovo, il motivo per cui è così importante mettere questo nelle mani degli sviluppatori presto è perché possono iniziare a fare quel lavoro.

Ti senti più vicino al punto in cui le persone non avranno bisogno dei controller tutto il tempo? Pensi che questo [Quest 3] hardware possa vedere di più quella realizzazione? Bosworth: Continuiamo a pensare che sia una possibilità, specialmente considerando che tanto tempo viene trascorso in ambienti sociali. Più della metà del tempo [in VR] viene trascorsa in ambito sociale: parte di questo tempo viene dedicato a giochi sociali che utilizzano i controller, ma non tutti. Non è una questione di ‘funziona?’ – ovviamente, può funzionare. Ma sicuramente c’è molto contenuto oggi che le persone desiderano avere accesso che richiede i controller.

Se, ad un certo punto, dici, hey, c’è abbastanza da fare solo con le mani che hai un prodotto completamente valido, invece di costringere qualcuno a fare un viaggio separato per tornare al negozio a prendere i controller che desiderano… stiamo costantemente tenendo d’occhio questa possibilità per far arrivare i dispositivi alle persone in modo utile a un prezzo più basso.

Il Meta Quest 3 ha degli aggiornamenti, ma non ha il tracciamento oculare incorporato.

John Kim/CNET

Vorrei chiedere la tua opinione sul tracciamento oculare perché è presente su Quest Pro e anche su Vision Pro e PlayStation VR 2 [ma non su Quest 3]. Cosa ne pensi, in termini di interfaccia, per la piattaforma Quest? Bosworth: Probabilmente continuerò ad usare il mio Quest Pro per le riunioni perché amo il tracciamento oculare e il tracciamento facciale. Da anni stiamo sperimentando il tracciamento oculare, lo sguardo più le mani, come interfaccia di input per l’utente. Il tracciamento oculare aggiunge solo molti costi e complessità all’hardware. Stiamo parlando di almeno due telecamere per occhio per farlo bene, senza contare l’illuminazione sul campo. Apple Vision Pro, che è un dispositivo fantastico, ha implementato l’illuminazione sul campo, quindi l’illuminazione arriva attraverso la lente. Se lo fai attraverso la lente, non puoi indossare gli occhiali. Da qui la necessità di lenti ottiche con prescrizione.

Col tempo, il tracciamento oculare diventerà parte integrante della piattaforma di base; penso che sia uno strumento fantastico. Per noi, è sempre una questione di costo-beneficio. Qual è il compromesso? Per il consumatore medio che cerchiamo di raggiungere, troveranno utile aggiungere questo peso extra, costo, impatto termico e sulla batteria per il beneficio che ne ottengono?

C’è molta attenzione sull’apertura e la compatibilità: partnership con Microsoft, Office 365 e il cloud gaming. Vedi più opportunità per questa sinergia con l’hardware che sta arrivando? Tra Apple e quello che Samsung sta sviluppando con Google, idealmente ci saranno modi in cui queste cose si interconnetteranno. Bosworth: Siamo stati qui per 10 anni a Connect, facendo questo lavoro, mettendolo là fuori. Decine di milioni di unità vendute. Quanti milioni e milioni di dollari pagati ai sviluppatori, imprese costruite sulla piattaforma. Gli altri non hanno milioni.

Non sto dicendo che sia impossibile. Certamente vogliamo utilizzare molti standard aperti. Open XR, Vulcan, glTF. Abbiamo lavorato a lungo sullo sviluppo di standard e cercato di fare questa cosa in modo aperto e facile. Utilizziamo un sistema operativo basato su Android. Sarebbe banale per Google o per qualcun altro portare un app store di app 2D sulla piattaforma. Non sarebbe nemmeno difficile. Saremmo felici di averli. Spero che le persone supportino l’ecosistema. Devono solo prendere il telefono e chiamarci.

Gli occhiali di Meta possono scattare foto e video, ma non video spaziali. Un giorno potrebbero farlo, però.

Meta

Gli occhiali Ray-Ban potrebbero mai fare video spaziali? Bosworth: La prima versione di Ray-Ban Stories aveva una telecamera su ogni astina ed erano in grado di catturare in stereo dal punto di vista hardware. Non abbiamo mai sviluppato il software. Non era molto popolare tra i consumatori. Abbiamo fatto alcuni test con gli utenti e l’immagine stereoscopica, anche su Facebook e Instagram, dove puoi fare una riproduzione stereoscopica interessante sia all’interno del visore che all’esterno. Le persone semplicemente non passavano molto tempo a guardare foto stereoscopiche. Quindi alla fine abbiamo deciso di non svilupparlo per risparmiare energia dalla seconda telecamera, per farla durare più a lungo e per rendere la cattura più piccola. Abbiamo sostituito la seconda telecamera con un LED [nei nuovi modelli].

Ho diverse telecamere per la realtà virtuale. Ho dedicato un intero anno a registrare, ogni settimana, un sabato di scienza con mio figlio in VR e l’ho pubblicato online. Sono davvero entusiasta di questo come creatore. Non vedo l’ora di iniziare; ovviamente le basi non sono ancora state messe. Ma penso che sia importante per noi massimizzare questi occhiali per quello che sono, capendo che le persone che li usano non stanno necessariamente cercando di essere creatori di realtà virtuale. Le persone che cercano di essere creatori di realtà virtuale probabilmente hanno strumenti migliori per il lavoro.

Parlando con Hugo Swart di Qualcomm sul chip nel Quest 3 e negli occhiali Ray-Ban, sembra che ci sia più larghezza di banda per i sensori da abbinare ad altre cose. Forse orologi. Ha menzionato i sensori indossabili. Cosa ne pensi? Bosworth: Abbiamo ambizioni enormi in quel settore. Ovviamente siamo stati aperti con i nostri sviluppi sulle interfacce neurali. Attualmente siamo a livello del polso. E penso che queste cose debbano essere altrove. Quindi c’è un’opportunità lì. Realisticamente, come quasi tutti i nostri visori, questi dispositivi sono limitati termicamente. Non siamo limitati dai chip, dalla larghezza di banda, dall’input I/O, dal numero di canali, dal numero di tubi, non è quello il limite principale. È davvero importante: non potresti avere il numero di sensori che abbiamo senza il chip XR. Ma una volta superata quella soglia, sei effettivamente limitato dalla capacità di creare energia termica sul viso. Quindi questa è la principale sfida che abbiamo.