ChatGPT ora supporta chat vocali e ricerche basate su immagini

ChatGPT supporta chat vocali e ricerche su immagini

ChatGPT sta ricevendo importanti aggiornamenti che consentiranno al chatbot di gestire comandi vocali e query basate su immagini. Gli utenti potranno avere una conversazione vocale con ChatGPT su Android e iOS e inserire immagini su tutte le piattaforme. OpenAI sta rilasciando le funzionalità ora. Saranno disponibili inizialmente per gli utenti Plus e Enterprise, mentre le altre persone avranno accesso alle funzioni basate su immagini in seguito.

Dovrai optare per le conversazioni vocali nell’app ChatGPT (vai su Impostazioni poi Nuove Funzioni) se desideri provarle. Tocca il pulsante del microfono e potrai scegliere tra cinque voci diverse.

OpenAI afferma che le conversazioni vocali sono alimentate da un nuovo modello di sintesi vocale che può generare “audio simile a quello umano solo da testo e pochi secondi di registrazione vocale”. Ha creato le cinque voci con l’aiuto di attori professionisti. In senso opposto, il sistema di riconoscimento vocale Whisper dell’azienda converte le parole pronunciate dall’utente in testo.

Le funzioni basate su immagini sono molto interessanti. OpenAI afferma che puoi, ad esempio, mostrare al chatbot una foto del tuo grill e chiedergli perché non si accende, fargli aiutarti a pianificare un pasto basandosi su una foto di quello che hai nel frigorifero o fargli risolvere un problema matematico che fotografi. A proposito, Microsoft ha evidenziato la capacità dell’IA Copilot di risolvere problemi matematici in Windows durante il suo evento Surface la scorsa settimana.

OpenAI utilizza GPT-3.5 e GPT-4 per alimentare le funzionalità di riconoscimento delle immagini. Per utilizzare le funzioni basate su immagini di ChatGPT, tocca il pulsante della fotocamera (dovrai toccare prima il pulsante più su iOS o Android) per scattare una foto o scegliere un’immagine esistente sul tuo dispositivo. Puoi chiedere a ChatGPT informazioni su più foto e utilizzare uno strumento di disegno per concentrarti su una parte specifica dell’immagine.

In un post sul blog che annuncia gli aggiornamenti, OpenAI ha sottolineato il potenziale rischio. È possibile che i cattivi attori imitino le voci di personaggi pubblici (e persone comuni) e forse commettano frodi. Ecco perché OpenAI si concentra sulle conversazioni vocali di ChatGPT con questa tecnologia e sta lavorando con partner selezionati su altri casi d’uso limitati (ne parleremo tra un attimo).

Per quanto riguarda le immagini, OpenAI ha collaborato con Be My Eyes, un’app gratuita che le persone non vedenti e ipovedenti possono utilizzare per comprendere meglio l’ambiente circostante grazie ai volontari che partecipano a videochiamate con loro. “Gli utenti ci hanno detto che trovano utile avere conversazioni generali sulle immagini che contengono persone sullo sfondo, come ad esempio se appare qualcuno in TV mentre stai cercando di capire le impostazioni del tuo telecomando”, ha detto OpenAI. L’azienda ha precisato di aver anche limitato la capacità di ChatGPT di analizzare e fare affermazioni dirette sulle persone che appaiono nelle immagini, “poiché ChatGPT non è sempre preciso e questi sistemi dovrebbero rispettare la privacy delle persone”. Ha pubblicato un articolo sulle proprietà di sicurezza della funzionalità basata su immagini, che chiama GPT-4 con visione.

ChatGPT è più efficace nel comprendere il testo in inglese presente nelle immagini rispetto ad altre lingue. OpenAI afferma che il chatbot “funziona male” in altre lingue al momento, soprattutto per quelle che utilizzano alfabeti non romani. Pertanto, suggerisce agli utenti non anglofoni di evitare di utilizzare ChatGPT per gestire testo in immagini per il momento.

Nel frattempo, Spotify si è alleata con OpenAI per utilizzare la tecnologia basata su voce per uno scopo interessante. L’ex ha annunciato un pilota di uno strumento chiamato Voice Translation per i podcaster. Questo strumento può tradurre podcast in diverse lingue utilizzando le voci delle persone che appaiono nello show. Spotify afferma che lo strumento può mantenere le caratteristiche vocali dell’oratore originale dopo aver convertito la sua voce in altre lingue.

All’inizio, Spotify sta convertendo alcuni show in inglese in alcune lingue. Le versioni in spagnolo di alcuni episodi di Armchair Expert e The Diary of a CEO con Steven Bartlett sono disponibili ora, seguite da varianti in francese e tedesco.