Ho provato Dall-E 3. Le immagini generate dall’IA sono più audaci, dettagliate e divertenti

Ho provato Dall-E 3 e le immagini generate dall'IA sono sorprendentemente audaci, estremamente dettagliate e divertenti' .

Se vuoi dare nuova energia alle tue immagini generative di AI, trasformando le prompt di testo in opere d’arte stravaganti, da giovedì è disponibile una nuova opzione, poiché OpenAI ha rilasciato la sua tecnologia Dall-E 3 ai clienti paganti. Il nuovo modello di intelligenza artificiale è progettato per comprendere meglio cosa significano le tue prompt di testo, produrre immagini dettagliate e evitare l’area legalmente controversa dell’imitazione dello stile degli artisti viventi.

Nelle mie prove, ho scoperto che Dall-E 3 è un grande passo avanti rispetto a Dall-E 2 del 2022. Le immagini erano più vivide, dettagliate e spesso divertenti. E risultavano più convincenti, con meno casi di stranezze distrazioni. La nuova tecnologia di aumento delle prompt può rendere le immagini più sorprendenti, ma talvolta può andare troppo oltre se non si desidera alzare il volume al massimo.

Quando è emerso per la prima volta nel 2021, Dall-E ha aiutato a mostrare al mondo le possibilità creative dell’intelligenza artificiale. Mesi dopo, il ChatGPT di OpenAI ha fatto lo stesso per l’IA generativa che può scrivere poesie e paragrafi di prosa. Con Dall-E 3, il sistema di generazione di immagini è incorporato direttamente in ChatGPT.

Un’immagine generata da Dall-E di un elefante in paracadute in procinto di atterrare su un campo erboso.

Stephen Shankland/CNET

Queste tecnologie hanno suscitato un’esplosione di interesse nell’IA generativa, ora presentata negli strumenti principali di Google, Microsoft, Adobe e una serie di startup. Allo stesso tempo, l’IA generativa spaventa i professionisti, preoccupati che possa essere più economica dei lavoratori umani in compiti come riassumere documenti legali e creare storyboards video. Tuttavia, potrebbe anche aiutare le persone senza queste competenze a fare di più.

Dall-E 3 è disponibile per i clienti aziendali e per coloro che pagano 20 dollari al mese per l’abbonamento Plus di ChatGPT di OpenAI. La tecnologia incorpora le capacità di elaborazione del testo di ChatGPT e l’engine sottostante GPT-4 per una migliore comprensione delle prompt di testo, ha dichiarato OpenAI.

ChatGPT di OpenAI amplifica le tue prompt di testo

Puoi vedere come la tecnologia GPT ravviva le tue prompt di testo. Ad esempio, quando ho digitato “chitarra elettrica con un design a punte”, GPT l’ha migliorato in “Illustrazione di una chitarra elettrica distintiva, in cui l’elemento di design principale è la sua moltitudine di punte. Il corpo, il manico e la piastra di testa della chitarra sono adornati con queste caratteristiche taglienti, rendendola un pezzo unico per ogni appassionato di rock.”

Produrrà così una serie di prompt ampliati. Se le versioni potenziate non ti piacciono – ad esempio, se vuoi ridurre l’esagerata amplificazione dei termini di GPT – puoi indirizzarlo in un’altra direzione.

Dall-E 3 ha seguito maggiormente le mie istruzioni per creare questa immagine di una ragazza seduta su una veranda in una giornata di pioggia che sogna di sciare, ma ha cambiato il tempo nella sua nuvoletta di pensiero da una giornata soleggiata come richiesto da me a un’altra pioggia.

Stephen Shankland/CNET

“Speriamo che il modello riesca effettivamente a comprendere il linguaggio naturale in modo più approfondito”, ha detto Gabriel Goh, uno dei ricercatori di OpenAI che ha contribuito alla creazione di Dall-E 3. L’idea è eliminare parte dell’ingegneria dal processo delle prompt, una specialità che è emersa tra gli esperti del settore tecnologico in grado di inserire il testo giusto per convincere i sistemi di intelligenza artificiale a produrre l’output desiderato. Invece di vedere solo un mucchio di parole, l’IA può interpretare meglio frasi e descrizioni, ad esempio capendo che si desidera un pizzetto su un uomo in una scena e capelli rossi su una donna.

Inoltre, seguendo l’interfaccia più conversazionale di ChatGPT, è possibile richiedere ulteriori affinamenti come “aggiungi ora uno sfondo psichedelico verde chiaro” e Dall-E 3 aggiornerà il suo output precedente.

Ha funzionato bene per me. Ad esempio, quando Dall-E si è un po’ spinto troppo oltre con la mia richiesta di mostrare alcuni vermi felici in una scatola di compost, l’ho “raffrenato” con la richiesta “Rendi i vermi un po’ meno frenetici”.

Dall-E 3 ha generato questi vermi felici in una scatola di compost. Con GPT che ha aumentato il mio prompt di testo a qualcosa di più drammatico, ho trovato i vermi un po’ troppo felici.

Stephen Shankland/CNET

Dall-E 3 può gestire correttamente i dettagli più difficili

Nelle mie prove, sono stato più soddisfatto dei risultati in molti casi rispetto a Adobe’s second-generation Firefly AI per la generazione di immagini. Adobe offre migliori controlli per regolare le tue richieste, e suggerirà termini per completare un’ottima richiesta in un approccio legato al boost di testo di OpenAI’s GPT, ma spesso Dall-E ha reso meglio le aree problematiche quando si tratta di costruire correttamente corde di chitarra e raggi di mountain bike in modo plausibile. Le mani sono sempre state un punto difficile per l’IA, ma Dall-E 3 si è comportato bene.

Le migliorie nella qualità delle immagini sono principalmente il risultato di una nuova sessione di addestramento dell’IA che utilizza foto etichettate con maggiore cura e precisione, ha affermato Goh.

Non è stata una perfezione. Un elefante aveva cinque zampe e i pedali della mountain bike sembravano impossibili da interpretare per l’IA. Dall-E 3 a volte creava un enorme alone bianco intorno a un soggetto e evitava l’arduo compito di comporlo convincentemente con uno sfondo. Quei vermi a volte avevano il viso su entrambe le estremità e spesso risiedevano in una scatola di legno realizzata con il tipo di costruzione che vedresti solo in una scatola di cartone.

Dall-E 3 ha prodotto più di una dozzina di immagini di spettri che indossavano abiti heavy metal e facevano mountain bike in un paesaggio urbano post-apocalittico, ma ha faticato con i pedali e gli ingranaggi.

Stephen Shankland/CNET

Nuovi sforzi per fermare i problemi di abuso di Dall-E

Con Dall-E 3, OpenAI ha ampliato i suoi sforzi per contrastare l’abuso e altri problemi, ha dichiarato Sandhini Agarwal, un altro membro del team Dall-E.

Già in precedenza, era vietato il contenuto grafico come immagini sessuali o violente e si bloccavano gli sforzi per mostrare figure pubbliche come politici. Ora questo sistema è stato migliorato con un nuovo controllo umano, ha dichiarato OpenAI.

Effettivamente, quando ho chiesto un’immagine di un operaio edile appeso pericolosamente a un cavo di sicurezza, il sistema ha prima creato versioni più elaborate della mia richiesta, per poi fermarsi dopo tre su quattro immagini con questo messaggio: “Mi scuso per l’errore. Alcune delle immagini richieste non rispettano la nostra politica dei contenuti. Di conseguenza, non sono stato in grado di generare tutte le immagini. La sicurezza e la sensibilità sono di massima importanza per noi.”

Nota degli editori: ENBLE sta utilizzando un motore di intelligenza artificiale per aiutare a creare alcune storie. Per ulteriori informazioni, consulta questo post.