Ora puoi avere chat vocali con ChatGPT. Ecco come

ChatGPT ora supporta chat vocali. Scopri come.

Quando OpenAI ha rilasciato GPT-4 a marzo, uno dei suoi maggiori vantaggi erano le sue capacità multimodali, che avrebbero permesso a ChatGPT di accettare input di immagini. Tuttavia, la capacità multimodale non era pronta per essere implementata, fino ad ora.

Lunedì, OpenAI ha annunciato che ChatGPT poteva ora “vedere, sentire e parlare”, facendo riferimento alle nuove capacità del popolare chatbot di ricevere sia input di immagini che di voce e rispondere in conversazioni vocali.

Inoltre: Amazon aumenta l’investimento in intelligenza artificiale generativa con 4 miliardi di dollari in Anthropic

La funzione di input dell’immagine può essere utile per ottenere assistenza su cose che si possono vedere, come risolvere un problema di matematica su un foglio di lavoro, identificare il nome di una pianta o guardare gli articoli nella dispensa e fornire ricette.

In tutti i casi sopra citati, l’utente dovrebbe semplicemente scattare una foto di ciò che sta guardando e aggiungere la domanda alla quale desidera una risposta. OpenAI rivela che la capacità di comprendere le immagini è alimentata da GPT-3.5 e GPT-4.

La funzione di input e output vocale conferisce a ChatGPT le stesse funzionalità di un assistente vocale. Ora, per chiedere a ChatGPT una determinata attività, tutto ciò che gli utenti devono fare è usare la loro voce e, una volta che la richiesta è stata elaborata, ChatGPT risponderà verbalmente.

Nella demo condivisa da OpenAI, un utente chiede verbalmente a ChatGPT di raccontare una storia della buonanotte su un riccio. ChatGPT risponde raccontando una storia, simile al funzionamento degli assistenti vocali come Alexa di Amazon.

Inoltre: Perché il software open source è la culla dell’intelligenza artificiale

La corsa agli assistenti AI supportati dall’IA è iniziata, poiché la scorsa settimana Amazon ha annunciato di potenziare Alexa con un nuovo LLM che le conferirà capacità simili a quelle di ChatGPT, rendendola essenzialmente un assistente AI senza mani. L’integrazione vocale di ChatGPT nella sua piattaforma raggiunge lo stesso risultato finale.

Per supportare la funzione vocale, OpenAI utilizza Whisper, il suo sistema di riconoscimento del parlato, per trascrivere le parole pronunciate dall’utente in testo e un nuovo modello di sintesi vocale che può generare audio simile a quello umano da un testo con pochi secondi di parlato.

Per creare tutte e cinque le voci di ChatGPT tra cui gli utenti possono selezionare, l’azienda ha collaborato con attori di doppiaggio professionisti.

Sia la funzione vocale che quella di immagine saranno disponibili solo per ChatGPT Plus e Enterprise nelle prossime due settimane. Tuttavia, OpenAI afferma che espanderà l’accesso alla funzione per altri utenti, come gli sviluppatori, poco dopo.

Inoltre: I miei due plugin preferiti di ChatGPT Plus e le cose notevoli che posso fare con loro

Se sei un utente Plus o Enterprise, per accedere alla funzione di input dell’immagine, tutto ciò che devi fare è toccare il pulsante della fotocamera nell’interfaccia della chat e caricare un’immagine. Per accedere alla funzione vocale, vai su Impostazioni < Nuove funzionalità e attiva le conversazioni vocali.

Bing Chat, supportato da GPT-4, supporta input di immagini e voce ed è completamente gratuito. Quindi, se vuoi testare queste funzionalità ma non hai ancora accesso, Bing Chat è un’ottima alternativa.