OpenAI ha appena rivelato DALL-E 3, il suo nuovo generatore di immagini

OpenAI ha rivelato DALL-E 3, un nuovo generatore di immagini.

OpenAI, la società madre di ChatGPT, ha dato la sua prima anteprima pubblica ufficiale di DALL-E 3, il suo ultimo modello di generazione di immagini. Rilasciato mercoledì durante un piccolo evento per i giornalisti, DALL-E 3 viene presentato come uno strumento che comprende completamente prompt di testo complessi e produce immagini corrispondenti in complessità.

Come indica una nuova pagina di informazioni su DALL-E 3 sul sito di OpenAI, “I moderni sistemi di generazione di immagini da testo hanno la tendenza a ignorare parole o descrizioni, costringendo gli utenti a imparare l’ingegneria dei prompt. DALL-E 3 rappresenta un passo avanti nella nostra capacità di generare immagini che si attengono esattamente al testo fornito.”

Potenziali immagini di una versione in corso di sviluppo di DALL-E 3 sono state trapelate su Discord all’inizio di quest’estate, e quelle hanno mostrato un enorme potenziale simile a quanto mostrato nell’anteprima per la stampa. Chi ha diffuso le immagini sosteneva di aver fornito a DALL-E 3 il lungo prompt “un dipinto di un giullare rosa che dà un cinque al panda durante una competizione di ciclismo. Le biciclette sono fatte di formaggio e il terreno è molto fangoso. Stanno guidando in una foresta nebbiosa. Il panda è arrabbiato.” L’immagine risultante era davvero sorprendente nella sua fedeltà a quella richiesta.

Generatori di immagini come Midjourney e Stable Diffusion, pur capaci di imitare il fotorealismo e produrre rappresentazioni di una vasta gamma di oggetti, stili e persone (con non poco controversie), senza dubbio faticano a produrre qualcosa di così complesso.

Quei generatori di immagini, così come le offerte precedenti di OpenAI in questo settore, notoriamente falliscono quando vengono chieste di produrre immagini con del testo, producendo spesso un nonsense incomprensibile nel migliore dei casi e divertenti malapropismi nel peggiore. DALL-E 3 sembra essere molto più capace di incorporare testo coerente nelle immagini, come dimostrato in un cartone pubblicato su X dal CEO di OpenAI, Sam Altman.

Il tweet potrebbe essere stato eliminato

OpenAI sostiene che integrerà DALL-E 3 direttamente in ChatGPT e lascia fortemente intendere che il chatbot passerà da un modello all’altro a seconda del contenuto del prompt. ChatGPT, un tempo solo una fonte facile da usare per le uscite di testo dal modello GPT-3.5, sta rapidamente evolvendo, incorporando plugin di terze parti con la capacità di estrarre testo da altre fonti, inclusa la rete. Questa mossa amplia ulteriormente le funzionalità di ChatGPT, ampliando ulteriormente la già tesa definizione del termine “chatbot”.

DALL-E 3 “sarà gradualmente disponibile per tutti gli utenti di ChatGPT+” nelle prossime settimane, secondo Altman. Il sito web di OpenAI afferma che tutti i clienti di ChatGPT Plus e ChatGPT Enterprise potranno utilizzarlo “all’inizio di ottobre” e che OpenAI non farà alcuna rivendicazione di copyright sulle uscite del modello. Tuttavia, se hai intenzione di generare qualcosa con DALL-E 3 e poi farne richiesta di copyright tu stesso, questo è un altro paio di maniche.