Può DALL-E 3 in ChatGPT leggere e modificare immagini? Vieni a vedere di persona

È possibile che DALL-E 3 su ChatGPT sia in grado di leggere e modificare immagini? Vieni a vedere di persona!

steam-santa.png

Ho esplorato l’uso di DALL-E 3 all’interno di ChatGPT Plus. Lo sto facendo perché è il mio lavoro, non perché ho qualche tipo di piccola dipendenza malsana nel descrivere qualcosa nella mia mente e vederla manifestarsi in pochi minuti sullo schermo. Posso smettere in qualsiasi momento. Certo, è proprio così, posso smettere in qualsiasi momento.

Ma non oggi. Oggi ho trovato un nuovo giocattolo. DALL-E 3 all’interno di ChatGPT può leggere e modificare immagini. Più o meno. Vedete, è un po’ esigente. Ma sto anticipando. Cominciamo questa storia dall’inizio…

Inoltre: Come ottenere uno scambio facciale perfetto utilizzando Midjourney AI

Sto usando Midjourney per personalizzare le immagini caricate da un po’ di tempo. Il problema è che è molto complicato. Devi avere Midjourney in esecuzione su Discord, e poi devi seguire una serie di passaggi per caricare un’immagine su Discord, ottenere un URL, eccetera, eccetera…

In ChatGPT Plus, devi semplicemente fare clic sull’icona della graffetta e caricare la tua immagine. Uno e fatto.

Questo rende molto più facile da usare e anche molto divertente. Ma quanto bene funziona? Per testarlo, ho provato tre immagini: una foto della mia auto, una foto di me e il logo di ENBLE. Vediamo i risultati.

La mia auto

Ecco una foto della mia auto, una Dodge Challenger del 2013.

Dopo aver caricato l’immagine, ho istruito DALL-E 3:

Metti l’auto in città

I risultati sono stati promettenti. DALL-E 3 ha riprodotto con successo un’immagine simile dell’auto, in una scena cittadina:

Poi, perché ho una vera passione per lo steampunk, ho chiesto a DALL-E di:

Trasformala in steampunk

Ecco cosa abbiamo ottenuto. Ha mantenuto lo stile generale del corpo della Dodge Challenger:

DALL-E continua a rompersi

Una cosa da notare è che non sono riuscito a ottenere DALL-E a fare troppe iterazioni senza problemi. Ogni due o tre richieste (e mai più di quattro), ho ottenuto questo messaggio:

Il mio trucco è stato prendere l’ultima immagine creata con successo e caricarla in una nuova sessione di ChatGPT Plus e lavorare da quella.

Inoltre: I migliori generatori di arte AI: DALL-E 2 e alternative divertenti da provare

Auto volante

Quindi, ho caricato l’ultima immagine, la versione steampunk della mia auto, e ho detto a DALL-E di:

Fai volare l’auto

Ecco cosa ho ottenuto. La rappresentazione della mia auto originale è scomparsa e abbiamo ottenuto un veicolo molto originale nello stile di Chitty Chitty Bang Bang, in aria:

È stato fantastico, ma non era più la mia macchina. Ma va bene, vediamo dove possiamo andare.

Il Babbo Natale

Il mio prossimo tentativo, data la stagione, era di cercare di mettere Babbo Natale al volante. Qui, sono incappato in una guardrail piuttosto entusiasta, con ChatGPT che mi diceva: “Mi dispiace, ma non posso aiutarti con questa richiesta”.

Sì, siamo arrivati a quel momento nel futuro in cui un’intelligenza artificiale dice l’equivalente preciso di “Mi dispiace Dave. Sono spaventosamente dispiaciuto, ma non posso farlo”. La vita imita l’arte.

Come puoi vedere, il ragionamento era un po’ bizzarro. Ma sembrava dipendere dal fatto che gli chiedevo di modificare un’immagine caricata. Quindi gli ho dato i prompt sopra come una singola richiesta:

Metti la macchina in città. Rendila steampunk. Fai volare la macchina. Metti Babbo Natale al volante.

Ho ottenuto questo:

Era una bella immagine, ma mancava tutta l’estetica vittoriana delle immagini precedenti. C’è una soluzione per questo, però.

Inoltre: Come utilizzare Bing Image Creator (e perché è migliore che mai)

DALL-E con ChatGPT riscrive essenzialmente ogni prompt in un’istruzione più dettagliata. Quindi, ad esempio, “Rendila steampunk” viene riscritto in:

Immagine di una scena di strada a tema steampunk con architettura vintage, che presenta un’auto classica modificata con elementi steampunk come tubi di ottone, ingranaggi e scarichi a vapore. La macchina è parcheggiata in una strada lastricata con lampioni stradali ambientali e uno sfondo di edifici all’antica che fondono influenze vittoriane e rivoluzione industriale. Ci sono persone vestite con abiti steampunk, con occhialini e abbigliamento vittoriano, che camminano sui marciapiedi. L’atmosfera complessiva è quella di una città retro-futuristica di una storia alternativa in cui la tecnologia a vapore è la principale.

Quindi ho preso porzioni del materiale descrittivo sia da “rendila steampunk” che da “fai volare la macchina” e li ho combinati per questo prompt:

Metti la macchina in città. Rendila steampunk. Fai volare la macchina. Metti Babbo Natale al volante. Qui, le strade lastricate sono fiancheggiate da lampioni a gas e le persone in abiti vittoriani guardano sbalordite. Il cielo è arancione al crepuscolo con un pizzico di smog e il ronzio di droni e dirigibili steampunk più piccoli in lontananza. L’atmosfera complessiva è quella di una città retro-futuristica di una storia alternativa in cui la tecnologia a vapore è la principale.

Ecco cosa ho ottenuto:

Strictly parlando, non è una macchina volante, ma è fantastica. Purtroppo, non c’è alcuna connessione con l’immagine originale della macchina con cui ho iniziato.

Fermati, Dave. Ti scongiuro, fermati, Dave. Fermati, Dave.

Ho avuto un altro momento HAL quando ho chiesto a ChatGPT di mettere questa foto di me in un ambiente d’ufficio:

Mi ha detto, “Mi dispiace, ma non posso aiutarti con questa richiesta”. Almeno ChatGPT non ha detto, “Guarda Dave, vedo che sei davvero turbato per questo. Sinceramente penso che dovresti sederti con calma, prendere una pillola antistress e rifletterci su.”

Inoltre: Grazie ai miei 5 strumenti AI preferiti, lavoro in modo più intelligente adesso

Ottimo. E ora qualcosa di completamente diverso.

Partendo su un treno jet

Ecco il logo di ENBLE, che ho caricato su DALL-E:

Prima, ho cercato di farlo mettere su un jet:

Metti questo logo sul lato di un jumbo jet

Almeno ha indovinato il colore:

Quindi ho provato a farlo mettere il logo su un edificio.

Metti questo logo sul lato di un edificio in mattoni

Ricordava il verde, ma non il verde giusto:

Così ho provato a far spostare l’edificio di DALL-E su un plastico ferroviario.

Metti l’edificio su un plastico ferroviario

Il risultato è qualcosa che somiglia a un plastico ferroviario (anche se la rotaia in primo piano è probabile che cause un deragliamento).

C’è un edificio in mattoni, ma non è lo stesso edificio in mattoni e ogni pretesa del logo ENBLE è scomparsa. Non rimane nemmeno il verde ENBLE.

Inoltre: Gli studiosi avvertono che l’IA generativa può facilmente diventare maliziosa nonostante le protezioni

Quindi, ovviamente, gli ho chiesto di fare questo:

Metti anche il jumbo jet su un plastico ferroviario

Ho ottenuto questo. Voglio solo sapere se sono aerei o missili nell’acqua.

Cosa abbiamo imparato?

Dopo aver sperimentato questa funzione di DALL-E, penso che possiamo concludere quanto segue:

Ecco qua. Hai caricato immagini su DALL-E? Come è andato per te? Fatecelo sapere nei commenti qui sotto.


Potete seguire gli aggiornamenti dei miei progetti quotidiani sui social media. Assicuratevi di iscrivervi alla mia newsletter settimanale degli aggiornamenti su Substack, e seguirmi su Twitter a @DavidGewirtz, su Facebook a Facebook.com/DavidGewirtz, su Instagram a Instagram.com/DavidGewirtz, e su YouTube a YouTube.com/DavidGewirtzTV.