Microsoft presenta Phi-2, un piccolo modello linguistico che racchiude potenza.

Microsoft presenta Phi-2, il potente modello linguistico tutto da scoprire

Phi-2 Microsoft Ignite

Quando si pensa ai modelli di linguaggio in relazione all’intelligenza artificiale generativa, il primo termine che viene probabilmente in mente è il grande modello di linguaggio (LLM). Questi LLM alimentano la maggior parte dei chatbot popolari, come ChatGPT, Bard e Copilot. Tuttavia, il nuovo modello di linguaggio di Microsoft è qui per dimostrare che i piccoli modelli di linguaggio (SLM) hanno grandi potenzialità nello spazio dell’intelligenza artificiale generativa.

Mercoledì, Microsoft ha rilasciato Phi-2, un piccolo modello di linguaggio capace di ragionamento di buon senso e comprensione del linguaggio, ed è ora disponibile nel catalogo dei modelli di Azure AI Studio.

Inoltre: L’IA nel 2023: un anno di scoperte che non hanno lasciato niente di umano inalterato

Ma non lasciatevi ingannare dalla parola “piccolo”. Phi-2 include 2,7 miliardi di parametri nel suo modello, un grande salto rispetto a Phi-1.5, che aveva 1,3 miliardi di parametri.

Nonostante la sua compattezza, Phi-2 ha mostrato una “performance all’avanguardia” tra i modelli di linguaggio con meno di 13 miliardi di parametri, superando anche modelli fino a 25 volte più grandi nei test complessi, secondo Microsoft.

Inoltre: Due scoperte hanno reso il 2023 il più innovativo anno tecnologico in oltre un decennio

Phi-2 ha superato modelli, tra cui Llama-2 di Meta, Mistral e persino Gemini Nano 2 di Google, che è la versione più piccola dell’LLM più capace di Google, Gemini, su diversi benchmark, come si vede qui di seguito.

I risultati delle performance di Phi-2 sono in linea con l’obiettivo di Microsoft di sviluppare un SLM con capacità emergenti e prestazioni confrontabili con modelli su una scala molto più grande.

Inoltre: ChatGPT vs. Bing Chat vs. Google Bard: Quale è il miglior chatbot AI?

“Resta da vedere se tali capacità emergenti possano essere raggiunte su una scala più piccola utilizzando scelte strategiche per l’addestramento, ad esempio la selezione dei dati”, ha affermato Microsoft.

“La nostra linea di lavoro con i modelli di Phi mira a rispondere a questa domanda addestrando SLM che raggiungano prestazioni paragonabili a modelli di scala molto più grande (ma ancora lontani dai modelli di frontiera)”.

Nell’addestrare Phi-2, Microsoft è stata molto selettiva riguardo ai dati utilizzati. L’azienda ha prima utilizzato ciò che chiama dati di qualità “da libro di testo”. Microsoft ha poi ampliato il database del modello di linguaggio aggiungendo dati web selezionati attentamente, filtrati in base al valore educativo e alla qualità dei contenuti.

Quindi, perché Microsoft è concentrata sugli SLM? 

Inoltre: Questi 5 importanti avanzamenti tecnologici del 2023 sono stati i più grandi game-changer

Gli SLM rappresentano un’alternativa economica ai LLM. I modelli più piccoli sono inoltre utili quando vengono utilizzati per compiti che non richiedono abbastanza potenza da richiedere un LLM. 

Inoltre, la potenza di calcolo richiesta per eseguire gli SLM è molto inferiore rispetto ai LLM. Questo requisito ridotto significa che gli utenti non sono necessariamente obbligati a investire in costose GPU per soddisfare le loro esigenze di elaborazione dati.