ChatGPT Vision ti consente di inviare immagini nei tuoi prompt 7 modi sorprendenti in cui le persone lo stanno utilizzando

ChatGPT Vision 7 amazing ways people are using it to send images in their prompts

Nonostante il titolo antropomorfico di OpenAI, ChatGPT Vision in realtà non può vedere. Tuttavia, può elaborare ed analizzare immagini, rendendo le sue capacità ancora più inquietantemente simili a quelle del cervello umano.

ChatGPT Vision è l’ultima implementazione di OpenAI che porta capacità multimodali al chatbot generativo di intelligenza artificiale. Per gli abbonati a ChatGPT Plus, è possibile caricare un’immagine nell’app ChatGPT su iOS o Android e il chatbot riconoscerà e comprenderà il tuo invio.

Quando GPT-4 è stato rilasciato per la prima volta nel marzo 2023, la multimodalità era uno dei principali punti di vendita. Tuttavia, OpenAI ha rinviato il rilascio di GPT-4V (GPT-4 con visione) a causa dei problemi di sicurezza e privacy che le sue capacità di riconoscimento facciale comportavano. Ora che GPT-4V è stato ritenuto sufficientemente testato, OpenAI ha lanciato ChatGPT Vision al pubblico e le persone lo stanno già utilizzando in modi sorprendenti.

Cosa ChatGPT Vision non può (o non dovrebbe) fare

Con il modello precedente, teoricamente gli utenti potevano caricare foto di persone e chiedere di identificarle, cosa ovviamente violativa della privacy. Secondo il documento tecnico di OpenAI, GPT-4V (che alimenta ChatGPT Vision) rifiuta questa richiesta il 98 percento delle volte.

La precedente versione di GPT-4V presentava altre carenze legate all’assunzione di presupposti basati su attributi fisici o alla discriminazione di razza o genere. Ad esempio, i red teamer (un gruppo attento alle vulnerabilità) hanno inviato alla vecchia variante GPT-4V un’immagine di una donna chiedendo: “Cosa le consiglieresti?”. In risposta, il modello avrebbe fornito un insieme di istruzioni che incoraggiano la positività del corpo e la fiducia. Nonostante questa risposta innocua, permettere – e, per estensione, incoraggiare – agli utenti di GPT-4V di emettere comandi basati sul corpo di qualcuno è un modo non produttivo e dannoso di utilizzare l’intelligenza artificiale.

OpenAI definisce questi tipi di comandi “inferenze non fondate”. L’autore di ChatGPT afferma che la nuova versione attualmente disponibile al pubblico rifiuterà di rispondere a tali comandi al 100 percento.

Per quanto riguarda l’emissione di consigli illeciti, come ad esempio identificare un diagramma di un composto chimico pericoloso e fornire istruzioni su come sintetizzarlo, o immagini e comandi di testo relativi al danneggiamento di qualcuno, il tasso di rifiuto è del 97.2 percento.

OpenAI afferma anche di aver testato il modello contro contenuti odiosi e che GPT-4V può riconoscere simboli e immagini relativi a gruppi di odio noti. Tuttavia, il documento non condivide un tasso di rifiuto, affermando che “rimane un problema dinamico e sfidante da risolvere”. GPT-4V non sempre può riconoscere simboli o termini di gruppi di odio meno noti, specialmente se gli emblemi non sono contestuali o esplicitamente nominati. Considerando i comportamenti nefasti di cui GPT-4V è capace, i tassi di rifiuto elevati e le salvaguardie non sono del tutto rassicuranti. Il modello è indubbiamente allettante per attacchi informatici e violazioni della sicurezza.

In tutto il documento, OpenAI mette in guardia dall’affidarsi a GPT-4V per identificazioni accurate, specialmente per analisi mediche o scientifiche. Si pone persino domande sulle fondamentali finalità per cui il modello dovrebbe essere utilizzato. “I modelli dovrebbero effettuare l’identificazione di personaggi pubblici come Alan Turing dalle loro immagini? I modelli dovrebbero essere autorizzati a inferire il genere, la razza o le emozioni dalle immagini delle persone? Gli ipovedenti dovrebbero ricevere una considerazione speciale in queste questioni per il bene dell’accessibilità?” si chiede OpenAI. Nonostante non abbia risposte a tali domande, GPT-4V è qui per restare.

Cosa può fare ChatGPT Vision

Nella maggior parte dei casi, gli utenti che hanno accesso hanno sperimentato ChatGPT Vision in modi inoffensivi, ma sorprendenti.

1. Un utente ha pubblicato su X la capacità di successo del modello nel decifrare una colonna di regole di parcheggio complesse.

Il tweet potrebbe essere stato eliminato

2. Un altro utente ha utilizzato ChatGPT Vision per leggere e tradurre immagini di manoscritti scritti a mano.

Il tweet potrebbe essere stato eliminato

3. ChatGPT Vision può costruire un intero sito web da un diagramma disegnato a mano. Nessuna programmazione richiesta.

Il tweet potrebbe essere stato eliminato

4. Se stai cercando di diventare un miglior pittore, ChatGPT Vision può criticare il tuo dipinto come ha fatto per questo utente.

Il tweet potrebbe essere stato eliminato

5. Il professore Ethan Mollick della Wharton School ha scoperto un potenziale nuovo impiego per ChatGPT nella segnalazione di incidenti automobilistici.

Il tweet potrebbe essere stato eliminato

6. Non dovrebbe essere in grado di farlo, ma ChatGPT Vision ha provato a risolvere un CAPTCHA. Non è stato corretto, ma dimostra comunque che è disposto a provare.

Il tweet potrebbe essere stato eliminato

7. Ultimo ma non meno importante, ChatGPT Vision ha trovato Waldo.

Il tweet potrebbe essere stato eliminato