Potresti presto eseguire compiti di intelligenza artificiale direttamente sul tuo iPhone? MediaTek dice di sì

In the near future, MediaTek says you can run AI tasks directly on your iPhone.

L’IA generativa, una delle tecnologie in più rapida crescita, viene utilizzata da ChatGPT di OpenAI e Google Bard per la chat e da sistemi di generazione di immagini come Stable Diffusion e DALL-E. Tuttavia, ha certe limitazioni perché questi strumenti richiedono l’uso di centri dati basati su cloud con centinaia di GPU per eseguire i processi di calcolo necessari per ogni query.

Ma un giorno potresti eseguire compiti di IA generativa direttamente sul tuo dispositivo mobile. O sulla tua auto connessa. O nel tuo soggiorno, camera da letto e cucina su altoparlanti intelligenti come Amazon Echo, Google Home o Apple HomePod.

Inoltre: Il tuo prossimo telefono sarà in grado di eseguire strumenti di IA generativa (anche in modalità aereo)

MediaTek crede che questo futuro sia più vicino di quanto pensiamo. Oggi, l’azienda taiwanese produttrice di semiconduttori ha annunciato di lavorare con Meta per portare il Lllama 2 LLM del gigante dei social in combinazione con le ultime APUs e la piattaforma di sviluppo software NeuroPilot dell’azienda per eseguire compiti di IA generativa su dispositivi senza dover fare affidamento su elaborazioni esterne.

Certo, c’è un problema: questo non eliminerà del tutto il centro dati. A causa delle dimensioni dei dataset LLM (il numero di parametri che contengono) e delle prestazioni richieste dal sistema di archiviazione, è comunque necessario un centro dati, sebbene molto più piccolo.

Ad esempio, il dataset “piccolo” di Llama 2 è composto da 7 miliardi di parametri, pari a circa 13 GB, che è adatto per alcune funzioni rudimentali di IA generativa. Tuttavia, una versione molto più grande di 72 miliardi di parametri richiede una quantità di archiviazione proporzionalmente maggiore, anche utilizzando la compressione avanzata dei dati, il che è al di fuori delle capacità pratiche degli smartphone attuali. Nei prossimi anni, gli LLM in fase di sviluppo saranno facilmente 10-100 volte più grandi di Llama 2 o GPT-4, con requisiti di archiviazione nell’ordine delle centinaia di gigabyte e oltre.

Questo è difficile da archiviare su uno smartphone e avere abbastanza IOPS per le prestazioni del database, ma certamente non per dispositivi di cache appositamente progettati con archiviazione flash veloce e terabyte di RAM. Quindi, per Llama 2, oggi è possibile ospitare un dispositivo ottimizzato per servire dispositivi mobili in un’unica unità rack senza tutta la pesante elaborazione. Non è un telefono, ma è comunque molto impressionante!

Inoltre: I migliori chatbot di intelligenza artificiale del 2023: ChatGPT e alternative

MediaTek prevede che le applicazioni di intelligenza artificiale basate su Llama 2 saranno disponibili per gli smartphone alimentati dalla loro SoC di punta di prossima generazione, previsto per essere lanciato sul mercato entro la fine dell’anno.

Per consentire all’IA generativa su dispositivo di accedere a questi dataset, gli operatori di telefonia mobile dovrebbero fare affidamento su reti edge a bassa latenza: piccoli centri dati/armadietti di attrezzature con connessioni veloci alle torri 5G. Questi centri dati risiederebbero direttamente sulla rete dell’operatore, quindi gli LLM in esecuzione sugli smartphone non avrebbero bisogno di passare attraverso molte “hops” di rete prima di accedere ai dati dei parametri.

Oltre all’esecuzione di carichi di lavoro di intelligenza artificiale sul dispositivo utilizzando processori specializzati come quelli di MediaTek, gli LLM specifici del dominio possono essere spostati più vicino al carico di lavoro dell’applicazione eseguendosi in modo ibrido con questi dispositivi di cache all’interno del mini centro dati, in uno scenario di “constrained device edge”.

Inoltre: Questi sono i miei 5 strumenti di intelligenza artificiale preferiti per il lavoro

Allora, quali sono i vantaggi dell’utilizzo dell’IA generativa su dispositivo?

  • Riduzione della latenza: Poiché i dati vengono elaborati sul dispositivo stesso, il tempo di risposta si riduce significativamente, soprattutto se vengono utilizzate metodologie di cache localizzate per le parti del dataset dei parametri frequentemente accessate.
  • Miglioramento della privacy dei dati: Mantenendo i dati sul dispositivo, quei dati (come una conversazione in chat o un addestramento inviato dall’utente) non vengono trasmessi attraverso il centro dati; solo i dati del modello lo sono.
  • Miglioramento dell’efficienza della larghezza di banda: Oggi, i compiti di IA generativa richiedono che tutti i dati della conversazione dell’utente vadano avanti e indietro al centro dati. Con l’elaborazione localizzata, una grande quantità di questo avviene sul dispositivo.
  • Aumento della resilienza operativa: Con la generazione su dispositivo, il sistema può continuare a funzionare anche se la rete viene interrotta, soprattutto se il dispositivo dispone di una cache di parametri sufficientemente grande.
  • Efficienza energetica: Non richiede risorse di calcolo intensive presso il centro dati o tanta energia per trasmettere quei dati dal dispositivo al centro dati.

Tuttavia, per ottenere questi benefici potrebbe essere necessario suddividere i carichi di lavoro e utilizzare altre tecniche di bilanciamento del carico per alleviare i costi di calcolo centralizzato dei data center e l’overhead di rete.

Oltre alla continua necessità di un data center di bordo connesso in modo rapido (sebbene con requisiti computazionali ed energetici notevolmente ridotti), c’è un’altra questione: quanto potente può essere realmente un LLM sull’hardware attuale? E sebbene ci sia meno preoccupazione per i dati sul dispositivo che vengono intercettati attraverso una rete, c’è il rischio aggiuntivo di sicurezza di dati sensibili che vengono violati sul dispositivo locale se non vengono gestiti correttamente, oltre alla sfida di aggiornare i dati del modello e mantenere la coerenza dei dati su un gran numero di dispositivi di caching di bordo distribuiti.

Inoltre: Come l’edge-to-cloud sta guidando la prossima fase di trasformazione digitale

E infine, c’è il costo: chi pagherà per tutti questi mini data center di bordo? Oggi il networking di bordo è utilizzato dai fornitori di servizi di bordo (come Equinix), che è necessario per servizi come Netflix e iTunes di Apple, tradizionalmente non dagli operatori di rete mobile come AT&T, T-Mobile o Verizon. I fornitori di servizi di intelligenza artificiale generativa come OpenAI/Microsoft, Google e Meta dovrebbero lavorare per trovare accordi simili.

Ci sono molte considerazioni con l’intelligenza artificiale generativa sul dispositivo, ma è chiaro che le aziende tecnologiche ci stanno pensando. Tra cinque anni, il tuo assistente intelligente sul dispositivo potrebbe pensare da solo. Pronto per l’intelligenza artificiale in tasca? Sta arrivando, e molto prima di quanto la maggior parte delle persone si aspettasse.