Le nuove lenti Ray-Ban di Meta hanno aggiunto l’intelligenza artificiale che può vedere ciò che stai vedendo

Le nuove lenti Ray-Ban di Meta sono state integrate con l'intelligenza artificiale in grado di percepire ciò che stai guardando

“Ehi, Meta. Dai un’occhiata a questo e dimmi quale di questi tè è senza caffeina.”

Ho pronunciato queste parole indossando un paio di Meta Ray-Bans presso la sede di questo gigante tecnologico a New York, mentre fissavo un tavolo con quattro bustine di tè con le etichette della caffeina cancellate con un pennarello magico. Un piccolo suono di clic nelle mie orecchie fu seguito dalla voce dell’IA di Meta che mi diceva che il tè alla camomilla era probabilmente senza caffeina. Leggeva le etichette e faceva giudizi utilizzando l’IA generativa.

Stavo dimostrando una funzionalità che sta venendo introdotta negli occhiali Ray-Ban di seconda generazione di Meta a partire da oggi, una funzionalità che il CEO di Meta, Mark Zuckerberg, aveva già promesso a settembre quando sono stati annunciati i nuovi occhiali. Le funzioni di intelligenza artificiale, che possono accedere alle telecamere sugli occhiali di Meta per guardare le immagini e interpretarle con l’IA generativa, dovevano essere lanciate nel 2024. Meta si è mossa per introdurre queste funzionalità molto più velocemente di quanto mi aspettassi, anche se la modalità di accesso anticipato è ancora molto beta. Oltre ad aggiungere la ricerca alimentata da Bing ai Ray-Ban come parte di un nuovo aggiornamento, che potenzia le capacità di comando vocale degli occhiali già disponibili, gli occhiali di Meta stanno acquisendo rapide nuove abilità.

Sono rimasto molto impressionato dalla dimostrazione perché non avevo mai visto nulla del genere. In parte sì: Google Lens e altri strumenti su smartphone usano già fotocamere e IA insieme, e Google Glass – un decennio fa – aveva alcuni strumenti di traduzione. Detto ciò, il modo facile di Meta di invocare l’IA per identificare le cose nel mondo intorno a me mi sembra abbastanza avanzato. Sono entusiasta di provarlo molto di più.

Gli occhiali non hanno uno schermo e riproducono solo le risposte vocali. Ma l’app Meta View salva le foto e le risposte dell’IA per dopo.

Meta

Intelligenza Artificiale Multimodale: Come funziona ora

La funzionalità ha ancora dei limiti. Può riconoscere solo ciò che vedi scattando una foto, che poi viene analizzata dall’IA. Dopo una richiesta vocale, si può sentire lo scatto dello scatto e c’è una pausa di qualche secondo prima di ricevere una risposta. Le richieste vocali sono anche verbose: ogni richiesta su Meta Glasses deve iniziare con “Ehi, Meta”, e poi bisogna dire “Dai un’occhiata a questo” per scattare la foto, seguita immediatamente da ciò che si desidera chiedere all’IA di fare. “Ehi, Meta, dai un’occhiata a questo e dimmi una ricetta con questi ingredienti”. “Ehi, Meta, dai un’occhiata a questo e crea una didascalia divertente”. “Ehi, Meta, dai un’occhiata a questo. Che pianta è?”.

Ogni risposta dell’IA e la foto alla quale ha guardato vengono memorizzate nell’app Meta View, che si collega agli occhiali. Mi piace questo perché è un registro visivo/scritto per dopo, come appunti per ricordarsi. Potrei immaginare di vagabondare in giro e fargli domande, usando questa sorta di ricerca Google indossata sulla mia testa per gli occhi, mentre faccio shopping o chissà cosa.

Non ho ancora provato gli occhiali Meta mentre cucino.

Meta

Potrebbe anche avere possibili utilizzi per scopi assistenziali. Ho indossato un paio di prova di occhiali Meta che non avevano la mia prescrizione, e ho chiesto cosa stavo guardando. Le risposte possono variare in dettaglio e accuratezza, ma può fornire un’indicazione. Sapeva che gli mostravo gli occhiali, che avevano lenti dal colore bluastro (montatura nera-blu, molto simile).

A volte può avere delle illusioni. Ho chiesto agli occhiali dei frutti in una ciotola davanti a me, e ha detto che c’erano arance, banane, pitahaya, mele e melograni. Era corretto, tranne per i melograni. (Non c’erano melagrane.) Mi è stato chiesto di fargli fare una didascalia per un grande panda imbalsamato davanti a una finestra. Ha fatto delle carine, ma una parlava di una persona solitaria che guardava un telefono, il che non corrispondeva.

Ho guardato un menù in spagnolo e ho chiesto agli occhiali di mostrarmi piatti piccanti. Ha letto alcuni piatti e tradotto alcuni ingredienti chiave per me, ma quando ho chiesto di nuovo dei piatti con carne, me li ha letti tutti in spagnolo.

Le possibilità qui sono selvagge e affascinanti, e possibilmente incredibilmente utili. Meta ammette che questo lancio anticipato sarà incentrato sulla scoperta dei bug e sull’aiuto all’evoluzione del funzionamento dell’AI sui occhiali. Ho trovato che ci fossero troppi momenti del tipo “Hey, Meta, guarda questo”. Ma quel processo potrebbe cambiare, chi lo sa. Quando coinvolto in un’analisi immediata delle immagini, fare domande di approfondimento dirette può funzionare senza dover dire di nuovo “Guarda questo”, ma sono sicuro che il mio successo varierà.

Ma quando le didascalie saranno utili e quando invece allucineranno?

Meta

Il futuro dell’AI indossabile sta diventando interessante

Questa AI, che Meta definisce “AI multimodale” perché utilizza insieme telecamere e chat vocali, è un precursore dell’AI future che l’azienda intende mescolare con molte forme di input, inclusi più dati sensoriali. L’AI di Qualcomm orientata su chipset di Meta’s Ray-Bans sembra già pronta per fare di più. È anche un processo che Meta pianifica di rendere più fluido nel tempo.

Il CTO di Meta, Andrew Bosworth, mi ha detto a settembre che mentre gli occhiali hanno attualmente bisogno di un comando vocale per attivarsi e “vedere” in modo da non esaurire la durata della batteria, alla fine avranno “sensori sufficientemente a basso consumo da rilevare un evento che attiva una consapevolezza che a sua volta attiva l’AI. Questo è davvero il sogno a cui stiamo lavorando.” Meta sta già anche cercando strumenti di AI che combinino insieme diverse forme di dati sensoriali, in previsione di futuri dispositivi indossabili più avanzati.

Al momento, sappiate che si tratta di una beta in accesso anticipato. Meta sta utilizzando dati di query anonimizzati per aiutare a migliorare i suoi servizi di AI durante la fase di accesso anticipato, cosa che potrebbe preoccupare le persone che desiderano una maggiore privacy. Al momento non conosco i dettagli specifici per l’opt-in, ma sembra che siano previsti controlli discreti sulla condivisione dei dati una volta che le funzionalità finali dell’AI saranno lanciate, probabilmente l’anno prossimo.

Tutto mi ricorda esattamente ciò a cui Humane sta puntando con il suo AI Pin indossabile, dispositivo che non ho ancora avuto l’occasione di vedere di persona. Mentre il prodotto di Humane è costoso e deve essere indossato sui vestiti, gli occhiali di Meta costano 300 dollari e sono già in vendita. Con l’avanzare delle capacità di AI di orologi, visori VR e occhiali intelligenti, le cose potrebbero diventare molto diverse per il futuro della tecnologia indossabile e per il suo livello di consapevolezza assistiva.

È sempre più evidente che una nuova frontiera di prodotti AI indossabili è già iniziata, e gli occhiali di Meta sono i primi ad arrivare qui.

Nota dell’editore: ENBLE sta utilizzando un motore di AI per aiutare a creare alcune storie. Per saperne di più, leggi questo articolo.