Potresti presto eseguire compiti di intelligenza artificiale direttamente sul tuo smartphone? MediaTek dice di sì

MediaTek says yes to the possibility of soon running artificial intelligence tasks directly on your smartphone.

L’IA generativa, una delle tecnologie in più rapida crescita, è utilizzata da ChatGPT di OpenAI e da Google Bard per la chat e da sistemi di generazione di immagini come Stable Diffusion e DALL-E. Tuttavia, ha certe limitazioni perché questi strumenti richiedono l’uso di data center basati su cloud con centinaia di GPU per eseguire i processi di calcolo necessari per ogni query.

Ma un giorno potresti eseguire direttamente i compiti di IA generativa sul tuo dispositivo mobile. O sulla tua auto connessa. O nel tuo soggiorno, camera da letto e cucina su altoparlanti intelligenti come Amazon Echo, Google Home o Apple HomePod.

Inoltre: Il tuo prossimo telefono sarà in grado di eseguire strumenti di IA generativa (anche in modalità aereo)

MediaTek crede che questo futuro sia più vicino di quanto pensiamo. Oggi, l’azienda di semiconduttori con sede a Taiwan ha annunciato di lavorare con Meta per portare il Lllama 2 LLM del gigante dei social, in combinazione con gli ultimi APUs di generazione e la piattaforma di sviluppo software NeuroPilot dell’azienda, per eseguire compiti di IA generativa su dispositivi senza dover fare affidamento su elaborazioni esterne.

Certo, c’è un problema: questo non eliminerà del tutto il data center. A causa delle dimensioni dei dataset LLM (il numero di parametri che contengono) e delle prestazioni richieste dal sistema di archiviazione, è comunque necessario un data center, sebbene molto più piccolo.

Ad esempio, il dataset “piccolo” di Llama 2 ha 7 miliardi di parametri, o circa 13 GB, che è adatto per alcune funzioni rudimentali di IA generativa. Tuttavia, una versione molto più grande con 72 miliardi di parametri richiede molto più spazio di archiviazione proporzionalmente, anche utilizzando una compressione avanzata dei dati, che è al di fuori delle capacità pratiche degli smartphone attuali. Nei prossimi anni, gli LLM in sviluppo saranno facilmente 10-100 volte più grandi di Llama 2 o GPT-4, con requisiti di archiviazione nell’ordine dei centinaia di gigabyte e superiori.

Questo è difficile da archiviare su uno smartphone e avere abbastanza IOPS per le prestazioni del database, ma certamente non per dispositivi di cache appositamente progettati con archiviazione flash veloce e terabyte di RAM. Quindi, per Llama 2, oggi è possibile ospitare un dispositivo ottimizzato per servire dispositivi mobili in un singolo rack unit senza tutto il pesante calcolo. Non è un telefono, ma è comunque molto impressionante!

Inoltre: I migliori chatbot di IA del 2023: ChatGPT e alternative

MediaTek prevede che le applicazioni di IA basate su Llama 2 saranno disponibili per gli smartphone alimentati dal loro SoC di punta di prossima generazione, programmato per entrare sul mercato entro la fine dell’anno.

Per consentire all’IA generativa su dispositivo di accedere a questi dataset, gli operatori di telefonia mobile dovrebbero fare affidamento su reti edge a bassa latenza: piccoli data center/armadiature di attrezzature con connessioni veloci alle torri 5G. Questi data center risiederebbero direttamente sulla rete dell’operatore, quindi gli LLM in esecuzione sugli smartphone non avrebbero bisogno di passare attraverso molte “hops” di rete prima di accedere ai dati dei parametri.

Oltre a eseguire carichi di lavoro di IA su dispositivi utilizzando processori specializzati come quelli di MediaTek, gli LLM specifici del dominio possono essere spostati più vicino al carico di lavoro dell’applicazione eseguendoli in modo ibrido con questi dispositivi di cache all’interno del mini data center, in uno scenario di “constrained device edge”.

Inoltre: Questi sono i miei 5 strumenti di IA preferiti per il lavoro

Quali sono quindi i vantaggi dell’utilizzo dell’IA generativa su dispositivo?

  • Riduzione della latenza: Poiché i dati vengono elaborati direttamente sul dispositivo, il tempo di risposta si riduce notevolmente, specialmente se vengono utilizzate metodologie di cache localizzate per le parti del dataset dei parametri frequentemente utilizzate.
  • Miglioramento della privacy dei dati: Mantenendo i dati sul dispositivo, quei dati (come una conversazione in chat o un addestramento inviato dall’utente) non vengono trasmessi attraverso il data center; solo i dati del modello lo sono.
  • Miglioramento dell’efficienza della larghezza di banda: Oggi, i compiti di IA generativa richiedono che tutti i dati della conversazione dell’utente vadano avanti e indietro al data center. Con l’elaborazione localizzata, una grande quantità di ciò avviene sul dispositivo.
  • Aumento della resilienza operativa: Con la generazione su dispositivo, il sistema può continuare a funzionare anche se la rete viene interrotta, soprattutto se il dispositivo dispone di una cache di parametri sufficientemente grande.
  • Efficienza energetica: Non richiede risorse di calcolo intensive presso il data center o tanta energia per trasmettere quei dati dal dispositivo al data center.

Tuttavia, per ottenere questi benefici potrebbe essere necessario suddividere i carichi di lavoro e utilizzare altre tecniche di bilanciamento del carico per alleviare i costi di elaborazione centralizzata nei data center e l’overhead di rete.

Oltre alla necessità continua di un data center periferico connesso velocemente (seppur con requisiti computazionali ed energetici notevolmente ridotti), c’è un altro problema: quanto potente può essere effettivamente eseguito un LLM sull’hardware odierno? E se c’è meno preoccupazione per i dati sul dispositivo che vengono intercettati attraverso una rete, c’è il rischio di sicurezza aggiuntivo dei dati sensibili che vengono penetrati sul dispositivo locale se non vengono gestiti correttamente, oltre alla sfida di aggiornare i dati del modello e mantenere la coerenza dei dati su un gran numero di dispositivi di caching periferici distribuiti.

Inoltre: Come l’edge-to-cloud sta guidando la prossima fase di trasformazione digitale

E infine, c’è il costo: chi pagherà per tutti questi mini data center periferici? La rete periferica è utilizzata oggi dai fornitori di servizi periferici (come Equinix), necessari per servizi come Netflix e iTunes di Apple, tradizionalmente non dagli operatori di rete mobile come AT&T, T-Mobile o Verizon. I fornitori di servizi di intelligenza artificiale generativa come OpenAI/Microsoft, Google e Meta dovranno lavorare per trovare accordi simili.

Ci sono molte considerazioni con l’intelligenza artificiale generativa sul dispositivo, ma è chiaro che le aziende tecnologiche stanno pensando a questo. Entro cinque anni, il tuo assistente intelligente sul dispositivo potrebbe pensare da solo. Pronto per l’intelligenza artificiale in tasca? Sta arrivando, e molto prima di quanto la maggior parte delle persone si aspettasse.