ChatGPT introduce funzionalità vocali e di immagini

ChatGPT introduce funzionalità vocali e immagini

Il chatbot preferito di tutti può ora vedere, ascoltare e parlare. Lunedì, OpenAI ha annunciato nuove funzionalità multimodali per ChatGPT. Gli utenti possono ora avere conversazioni vocali o condividere immagini con ChatGPT in tempo reale.

Le funzionalità audio e multimodali sono diventate la prossima fase nella feroce competizione dell’IA generativa. Meta ha recentemente lanciato AudioCraft per generare musica con l’IA e sia Google Bard che Microsoft Bing hanno implementato funzionalità multimodali per le loro esperienze di chat. Proprio la scorsa settimana, Amazon ha presentato una versione rinnovata di Alexa che sarà alimentata dal proprio LLM (large language model), e persino Apple sta sperimentando con la voce generata dall’IA, con Personal Voice.

Le funzionalità vocali saranno disponibili su iOS e Android. Come Alexa o Siri, è possibile toccare per parlare con ChatGPT e parlerà con una delle cinque opzioni di voce preferite. A differenza degli attuali assistenti vocali disponibili, ChatGPT è alimentato da LLM più avanzati, quindi ciò che sentirai è lo stesso tipo di risposta conversazionale e creativa che GPT-4 e GPT-3.5 di OpenAI sono in grado di creare con il testo. L’esempio condiviso da OpenAI nell’annuncio è la generazione di una storia della buonanotte da un suggerimento vocale. Quindi, i genitori esausti alla fine di una lunga giornata possono affidare la loro creatività a ChatGPT.

Il tweet potrebbe essere stato eliminato

Il riconoscimento multimodale è qualcosa che è stato previsto da un po’ di tempo ed è ora lanciato in una modalità user-friendly per ChatGPT. Quando GPT-4 è stato rilasciato lo scorso marzo, OpenAI ha mostrato la sua capacità di comprendere e interpretare immagini e testo scritto a mano. Ora farà parte dell’uso quotidiano di ChatGPT. Gli utenti possono caricare un’immagine di qualcosa e chiedere a ChatGPT informazioni su di essa, come identificare una nuvola o elaborare un piano pasti basato su una foto del contenuto del frigorifero. La modalità multimodale sarà disponibile su tutte le piattaforme.

Come per qualsiasi avanzamento nell’IA generativa, ci sono seri problemi etici e di privacy da considerare. Per mitigare i rischi dei deepfake audio, OpenAI afferma di utilizzare la propria tecnologia di riconoscimento audio solo per specifici casi d’uso di “chat vocale”. Inoltre, è stata creata con attori vocali con cui hanno “lavorato direttamente”. Detto ciò, nell’annuncio non viene menzionato se le voci degli utenti possono essere utilizzate per addestrare il modello quando si opta per la chat vocale. Per le funzionalità multimodali di ChatGPT, OpenAI afferma di aver adottato misure tecniche per limitare significativamente la capacità di ChatGPT di analizzare e fare affermazioni dirette sulle persone, poiché ChatGPT non è sempre accurato e questi sistemi dovrebbero rispettare la privacy delle persone. Ma il vero test per usi nefasti non sarà noto fino al suo rilascio nel mondo reale.

La chat vocale e le immagini verranno implementate per gli utenti di ChatGPT Plus e Enterprise nelle prossime due settimane e per tutti gli utenti “a breve”.