DALL-E 3 potrebbe portare la generazione di immagini AI al livello successivo | ENBLE

DALL-E 3 AI Image Generation to the Next Level | ENBLE

OpenAI

OpenAI potrebbe essere in procinto di preparare la prossima versione del suo generatore di immagini AI DALL-E per la conversione di testo in immagini con una serie di test alpha che sono stati ora trapelati al pubblico, secondo il Decoder.

Un anonimo informatore su Discord ha condiviso dettagli sulla sua esperienza, avendo accesso al prossimo modello di immagine OpenAI chiamato DALL-E 3. È apparso per la prima volta a maggio, dicendo al canale di Discord basato sugli interessi che faceva parte di un test alpha per OpenAI, provando un nuovo modello di immagine AI. Ha condiviso le immagini generate in quel momento.

La versione di prova alpha di maggio aveva la capacità di generare immagini di rapporti di aspetto multipli all’interno del modello di immagine. Il YouTuber MattVidPro AI ha quindi mostrato diverse immagini generate con un rapporto di aspetto 16:9. Questa versione ha anche mostrato la capacità del modello di produrre testo di alta qualità, che continua ad essere un punto critico per i modelli concorrenti, anche per i migliori generatori come Stable Diffusion e Midjourney.

Alcuni esempi mostravano immagini, come testo fuso in un muro di mattoni, un’insegna al neon di parole, un’insegna pubblicitaria in una città, una decorazione di una torta e un nome inciso su una montagna. Il modello sostiene che DALL-E è bravo a generare persone. Una di queste immagini mostrava una donna che mangiava spaghetti a una festa da un punto di vista grandangolare.

L’informatore è tornato al canale di Discord a metà luglio con ulteriori dettagli e nuove immagini. Ha dichiarato di far parte di una versione di prova “chiusa” che includeva circa 400 soggetti. Ha aggiunto di essere stato invitato alla prova tramite email ed è stato anche coinvolto nella prova di DALL-E originale e DALL-E 2. Questo ha portato alla conclusione che il test alpha potrebbe essere per DALL-E 3, anche se non è stato confermato.

Il modello è stato notevolmente aggiornato tra maggio e luglio. L’informatore ha dimostrato ciò condividendo immagini generate sulla base dello stesso input, mostrando quanto potente sia diventato DALL-E 3 nel tempo. L’input richiede un dipinto di un giullare rosa che fa il cinque alto a un panda durante una competizione di ciclismo. Le biciclette sono fatte di formaggio e il terreno è molto fangoso. Stanno guidando in una foresta nebbiosa. Il panda è arrabbiato.

La versione alpha di maggio rappresenta la scena generale che soddisfa la maggior parte dei punti dell’input. C’è una leggera distorsione nelle mani che si toccano e le ruote delle biciclette sono gialle invece di essere fatte di formaggio. Tuttavia, l’alpha di luglio è molto più dettagliata, con il giullare rosa e il panda che si danno chiaramente il cinque alto e le ruote della bicicletta fatte di formaggio in diverse generazioni.

Nel frattempo, in Midjourney, manca il giullare dalla scena e i panda sono su motociclette invece di biciclette. Ci sono strade invece di fango. I panda sono felici invece di arrabbiati.

Ci sono molti esempi di immagini alpha di luglio di DALL-E 3 che mostrano il potenziale del modello. Tuttavia, con il test alpha non censurato, l’informatore ha osservato che ha anche il potenziale per generare scene di “violenza e nudità o materiale protetto da copyright come loghi aziendali”.

Alcuni esempi includono una ragazza anime sanguinolenta, un personaggio di Game of Thrones, una copertina di Grand Theft Auto V, Gesù zombie che mangia un panino Subway, suggerendo anche una leggera violenza, e Shrek che viene disseppellito da uno scavo archeologico, tra gli altri.

MattVidPro AI ha osservato che il modello di immagine genera immagini come se dovessero essere in uno stile specifico.

DALL-E 2 è stato lanciato nell’aprile 2022 ma è stato ampiamente regolamentato con una lista d’attesa a causa della sua popolarità e delle preoccupazioni etiche e di sicurezza. Il generatore di immagini AI è diventato accessibile al pubblico nel settembre 2022.