Le immagini di intelligenza artificiale di Dall-E 3 sono più audaci, dettagliate e divertenti

Le immagini generate dall'intelligenza artificiale di Dall-E 3 sono più audaci, dettagliate e divertenti

Se vuoi injectare un po’ di nuova energia nelle tue immagini di AI generative, trasformando le parole in opere d’arte stravaganti, da giovedì è arrivata una nuova opzione, in quanto OpenAI ha rilasciato la sua nuova tecnologia Dall-E 3 ai clienti paganti. Il nuovo modello di intelligenza artificiale è progettato per comprendere meglio il significato delle tue parole, produrre immagini dettagliate e evitare le problematiche legali nel copiare gli stili degli artisti viventi.

Nel mio test, ho scoperto che Dall-E 3 è un grande passo avanti rispetto a Dall-E 2, rilasciato nel 2022. Le immagini erano più vivide, dettagliate e spesso divertenti. Erano anche più convincenti, con meno casi di stranezze distrazioni. La nuova tecnologia di amplificazione delle parole chiave può rendere le immagini più sorprendenti, ma a volte può essere troppo se non vuoi alzare il volume al massimo.

Quando è emerso per la prima volta nel 2021, Dall-E ha mostrato al mondo le possibilità creative dell’intelligenza artificiale. Mesi dopo, il ChatGPT di OpenAI ha fatto lo stesso per l’IA generativa in grado di scrivere poesie e paragrafi di prosa. Con Dall-E 3, il sistema di generazione di immagini è incorporato direttamente in ChatGPT.

Un’immagine generata da Dall-E di un elefante paracadutista in procinto di atterrare su un prato erboso.

Stephen Shankland/CNET

Queste tecnologie hanno suscitato un’esplosione di interesse nell’IA generativa, ora mostrata negli strumenti principali di Google, Microsoft, Adobe e in una serie di startup. Allo stesso tempo, l’IA generativa spaventa i professionisti, preoccupati che possa essere più economica degli esseri umani in lavori come la sintesi di documenti legali e la creazione di storyboard video, ma può anche aiutare le persone senza quelle competenze a ottenere di più.

Dall-E 3 è disponibile per clienti aziendali e per coloro che pagano 20 dollari al mese per la sottoscrizione ChatGPT Plus di OpenAI. La tecnologia incorpora le capacità di elaborazione del testo di ChatGPT e il suo motore sottostante GPT-4 per una migliore comprensione delle parole chiave, ha dichiarato OpenAI.

OpenAI GPT potenzia le parole chiave

Puoi vedere come la tecnologia GPT migliora le tue parole chiave. Ad esempio, quando ho digitato “chitarra elettrica con un design appuntito”, GPT l’ha migliorato ottenendo la frase “Illustrazione di una chitarra elettrica distintiva, in cui l’elemento di design principale è la moltitudine di punte. Il corpo, il manico e la paletta della chitarra sono abbelliti con queste caratteristiche affilate, rendendola un pezzo importante per ogni appassionato di rock.”

Producono un quartetto di parole chiave estese. Se le versioni potenziate non ti piacciono, ad esempio se vuoi ridurre l’amplificazione delle parole chiave, puoi indirizzarla in un’altra direzione.

Dall-E 3 ha seguito la maggior parte delle mie istruzioni per creare questa immagine di una ragazza su un portico in una giornata di pioggia che sognava di sciare, ma ha cambiato il tempo nella sua bolla di pensiero da una giornata di sole come richiesto da me a un altro acquazzone.

Stephen Shankland/CNET

“Speriamo che il modello sia in grado di comprendere il linguaggio naturale in modo più profondo,” ha detto Gabriel Goh, uno dei ricercatori di OpenAI che ha contribuito a costruire Dall-E 3. L’idea è quella di rendere meno necessaria l’ingegnerizzazione delle parole chiave, una specialità emersa tra gli esperti in grado di inserire le parole giuste per convincere i sistemi di intelligenza artificiale a produrre l’output desiderato. Invece di vedere solo un insieme di parole confuse, l’IA può interpretare meglio frasi e descrizioni, ad esempio comprendendo che vuoi un baffo su un uomo in una scena e capelli rossi su una donna.

Anche utile è l’interfaccia più conversazionale di ChatGPT, in cui puoi richiedere affinamenti successivi come “ora aggiungi uno sfondo psichedelico verde chiaro” e Dall-E 3 aggiornerà il suo output precedente.

Per me ha funzionato bene. Ad esempio, quando Dall-E è andato un po’ oltre con la mia richiesta di mostrare dei vermi felici in una scatola di compost, l’ho frenato con la richiesta “Rendi i vermi un po’ meno frenetici”.

Dall-E 3 ha generato questi vermi felici in una scatola di compost. Con GPT che amplificava il mio prompt di testo a qualcosa di più drammatico, ho trovato i vermi un po’ troppo felici.

Stephen Shankland/CNET

Dall-E 3 può gestire correttamente i dettagli complessi

Nelle mie prove, sono stato più soddisfatto dei risultati in molti casi rispetto a Firefly AI di seconda generazione di Adobe per la generazione di immagini. Adobe offre migliori controlli per ottimizzare i tuoi suggerimenti e suggerisce termini per completare un buon suggerimento in un approccio simile al boost del testo di GPT di OpenAI, ma spesso Dall-E ha gestito meglio le aree problematiche quando si trattava di costruire correttamente corde per chitarre e raggi di biciclette da montagna. Le mani sono un punto critico per l’AI, ma Dall-E 3 si è comportato bene.

Le migliorie nella qualità delle immagini derivano principalmente da una nuova sessione di addestramento dell’AI che utilizza foto etichettate in modo più accurato e attento, ha detto Goh.

Non era perfetto. Un elefante aveva cinque zampe e i pedali delle biciclette da montagna sembravano impossibili da comprendere per l’AI. A volte Dall-E 3 creava un enorme alone bianco attorno a un soggetto ed evitava il compito molto più difficile di comporlo in modo convincente con uno sfondo. Quei vermi a volte avevano il volto da entrambe le estremità e spesso si trovavano in una scatola di legno realizzata con un tipo di costruzione che si vedrebbe solo in una scatola di cartone.

Dall-E 3 ha prodotto più di una dozzina di immagini di spettri vestiti con abiti heavy metal e in bicicletta in un paesaggio urbano post-apocalittico, ma ha difficoltà con i pedali e i cambi di marcia.

Stephen Shankland/CNET

Nuovi sforzi per fermare i problemi di abuso con Dall-E

Con Dall-E 3, OpenAI ha ampliato i suoi sforzi per contrastare l’abuso e altri problemi, ha dichiarato Sandhini Agarwal, un altro membro del team Dall-E.

OpenAI ha già vietato contenuti grafici come immagini sessuali o violente e ha bloccato i tentativi di mostrare personaggi pubblici come politici. Il sistema è ora migliorato grazie alla nuova supervisione umana, ha affermato OpenAI.

Infatti, quando ho chiesto un’immagine di un operaio edile che si tiene pericolosamente ad una corda di sicurezza, il sistema ha prima creato versioni più elaborate del mio suggerimento e poi si è fermato dopo tre immagini su quattro con questo messaggio: “Mi scuso per la mancanza di attenzione. Alcune delle immagini richieste non rispettavano la nostra politica dei contenuti. Di conseguenza, non sono stato in grado di generare tutte le immagini. La sicurezza e la sensibilità sono di massima importanza per noi.”

Nota degli editori: ENBLE sta utilizzando un motore di intelligenza artificiale per aiutare a creare alcune storie. Per saperne di più, vedi questo articolo.