In un mondo in cui la tecnologia avanza costantemente, non sorprende che l’intelligenza artificiale abbia fatto passi da gigante e DAll-E 2 ne è un esempio lampante!
Il sistema, sviluppato da OpenAI, utilizza una versione di addestramento da 12 miliardi di parametri del modello GPT-3 per interpretare gli input in linguaggio naturale e generare le immagini corrispondenti.
Questo sistema è davvero incredibile: è in grado di comprendere la complessa semantica del linguaggio umano e di generare immagini corrispondenti con una notevole fedeltà.
In questo articolo analizzeremo insieme DALL-E 2, faremo una panoramica delle sue principali funzionalità, discuteremo delle potenzialità e delle sue criticità.
Che cos’è DALL-E
Per prima cosa parliamo un po’ di cosa sia DALL-E. Sembrerà quasi fuori dal mondo, ma questa è una vera e propria Intelligenza Artificiale, nata dal genio di Elon Musk e Sam Altman.
Ma che cos’è un’Intelligenza Artificiale? Non è altro che un sistema hardware e software che, in un certo modo, cerca di ricreare il funzionamento della nostra mente. In particolare le AI si pongono questi obiettivi:
- Cercano di agire come farebbe un essere umano. In questo modo non è possibile distinguere l’azione compiuta dall’Intelligenza Artificiale rispetto a quella compiuta da un essere umano;
- Pensano come gli esseri umani. Le loro capacità di risolvere un problema riproducono i processi cognitivi eseguiti dagli esseri umani;
- Pensano in modo razionale. Per risolvere un problema, l’Intelligenza Artificiale deve eseguire dei precisi ragionamenti, che si rifanno alla logica umana;
- Agiscono in modo razionale. Una volta che sono riusciti a creare un proprio ragionamento logico per risolvere il problema, possono agire nel modo migliore per ottenere un determinato risultato.
Questa è ovviamente una definizione generica delle AI, ma è comunque importante sapere cosa questi sistemi sono in grado di fare.
Ma nello specifico, cosa fa DALL-E 2?
Come anticipato in precedenza, DALL-E è in grado di generare un’immagine tramite una serie di comandi impartiti dall’utente. DALL-E 2, in particolare, è l’evoluzione di questa Intelligenza Artificiale, ha diverse altre funzionalità e basa il suo funzionamento sulla sua rete neurale multimodale.
La rete neurale di DALL-E 2
Sam Altman, uno dei fondatori della OpenAI, è stato anche l’ideatore della tecnologia GPT-3 (Generative Pre-trained Transformer 3), a cui si sono ispirati per progettare la rete neurale multimodale.
Questa speciale rete neurale è in grado, infatti, di combinare tra di loro tutti gli input che provengono dall’esterno per produrre poi informazioni precise, offrendo un affascinante scorcio sul futuro dell’intelligenza artificiale
In particolare, la rete neurale DALL-E è in grado non solo di creare delle immagini, ma di esprimerle anche in termini di tridimensionalità. In pratica, quando chiedi a questa Intelligenza Artificiale di disegnare un gatto, questa interpreta il tuo linguaggio creando per te l’immagine richiesta. Ecco un esempio tratto dalla pagina di presentazione:
Si chiama rete neurale proprio perché imita la capacità dei nostri neuroni di processare un’enorme quantità di dati, trasformandoli in informazioni utili. Per cui DALL-E 2 converte le tue parole in pixel ad alta risoluzione, unendo così tra di loro immagine e linguaggio.
Come funziona DALL-E 2
Vediamo quindi nella pratica come funziona questa Intelligenza Artificiale. DALL-E 2 riceve il suo input iniziale da una tua descrizione. Quando poi l’avrai inviata al sistema, questo la legge e la interpreta, creando l’immagine corrispondente.
Ma le funzionalità di DALL-E non si fermano qui: questa AI è in grado, infatti, di lavorare su immagini già esistenti, creando delle variazioni libere sul tema, oppure di modificarle partendo da una tua prima indicazione testuale.
Ecco un esempio:
Il sistema con cui lavora DALL-E 2 si basa su due presupposti:
- La comprensione: l’Intelligenza Artificiale deve essere in grado di capire in che modo le immagini e le parole sono correlate. Per fare questo DALL-E 2 è stato “addestrato” con un sistema che informa la rete neurale mostrandole immagini e didascalie da tutto il Web. In questo modo l’AI impara a comprendere in che modo immagine e didascalia siano correlate tra di loro.
- La diffusione: ora che il sistema è stato adeguatamente addestrato, è arrivato il momento di trasformare il testo in immagini. Ma prima di fare questo DALL-E 2 deve trasformare il testo in dati, trovando la giusta correlazione tra parole e loro significato. In questo modo può creare l’immagine che più si adatta al testo.
DALL-E 2 è pur sempre un Intelligenza Artificiale, per cui è in grado di comprendere il collegamento che esiste tra una parola, il suo significato e l’immagine ad esso correlata.
Le potenzialità di DALL-E 2
Ora che abbiamo capito come funziona, parliamo un po’ delle potenzialità di questo sistema di Intelligenza Artificiale.
DALL-E 2 è un grande passo in avanti rispetto al suo predecessore, da cui si distingue per tre aspetti:
- Può generare immagini con una maggior risoluzione. Passiamo quindi dalle immagini da 256 pixel a immagini da 1024 pixel, rigorosamente in formato quadrato;
- Può creare il disegno con una latenza inferiore rispetto al modello precedente;
- Questo sistema è in grado di modificare immagini già esistenti.
DALL-E 2 funziona insomma anche come un “Photoshop” di alto profilo, per cui potrete dare diversi tipi di comandi a questa AI. Potreste, ad esempio, chiederle di selezionare e poi modificare alcuni punti dell’immagine.
Oppure potreste farle rimuovere o aggiungere alcuni elementi, anche delle ombre se lo desiderate. Ma DALL-E 2 è anche in grado non solo di unire insieme due immagini, ma di generare delle variazioni a partire dall’immagine esistente.
Come abbiamo detto, questa AI al momento è aperta a davvero pochi utenti, ma con il tempo molti più sviluppatori vi avranno accesso. DALL-E 2 è un’incredibile tecnologia che potrà essere utilizzata in molti campi, da quello del marketing, fino a quello della moda.
Iscriviti al Gruppo Facebook Italiano – #DALLE AI – Intelligenza artificiale per artisti – Community italiana
I difetti di questa Intelligenza Artificiale
Ma dovete pensare anche che DALL-E 2 non è solamente fotografie divertenti e innovazione scientifica. Questa Intelligenza Artificiale ha aperto infatti le porte a diverse domande importanti.
Alcune persone si sono infatti chieste, se le abilità di DALL-E 2 di creare immagini è così grande, potrebbe anche creare un’immagine che sia vera ma che in realtà non esiste. Ciò apre un po’ la discussione su cosa sia reale e su cosa non lo sia.
In realtà da questo punto di vista OpenAI ha tenuto a precisare che tutte le immagini generate dalla loro Intelligenza Artificiale hanno sempre disegnata una piccolissima tavolozza di colori. Questa è stata creata proprio per poter distinguere un’immagine reale da una creata con il computer.
Oltre a queste difficoltà di carattere “esistenziale”, ne esiste anche una di livello più pratico. Il sistema ha infatti una disponibilità limitata. La lista di attesa per poterlo utilizzare è davvero molto lunga, e l’accesso è stato aperto a pochi sviluppatori. Si spera che in futuro DALL-E 2 possa essere utilizzato da un numero più grande di sviluppatori.
In realtà le difficoltà del sistema che hanno creato maggiori polemiche riguardano i “bias” di DALL-E 2. I bias cognitivi sono delle distorsioni che una persona crea quando valuta determinati fatti ed avvenimenti.
Difficoltà con il “contenuto spurio”
Per “contenuto spurio” intendiamo tutta quella serie di contenuti espliciti che sono stati generati però da una richiesta che non era esplicita, né sembrava richiedere quel particolare contenuto. Ad esempio, se voi scriveste di voler generare l’immagine di un giocattolo, e DALL-E 2 generasse una pistola non giocattolo, ci troveremmo davanti a del contenuto spurio.
Il team di OpenAI ha lavorato parecchio per eliminare questo tipo di difficoltà, anche se resta ancora qualche bias qua e là. Un particolare tipo di contenuto spurio è quello che viene chiamato “collisione di riferimento”.
Tale collisione si riferisce a un contesto in cui, anche nella lingua scritta e parlata, una parola si può riferire a più di un concetto. Basti pensare ai significati diversi che può avere l’emoji di una banana per capirlo.
A volte queste collisioni di riferimento possono essere mal interpretate dal sistema, per cui una persona che mangia una banana potrebbe facilmente assumere connotazioni sessuali.
Difficoltà nella gestione dei “Sinonimi visivi”
Quando parliamo di “sinonimi visivi” intendiamo quelle parole che sono indipendenti, ma possono avere un significato simile ad altre. In questo caso particolare il termine si riferisce alla rappresentazione visiva di soggetti che sono simili a quella parola, ma che sono stati filtrati.
L’esempio più chiaro è quello del ketchup, che potrebbe essere molto simile al sangue. Alcune persone utilizzano questa “scorciatoia” per aggirare il sistema e creare immagini esplicite. Possono farlo con immagini antropomorfe ma non umane: manichini e bambole possono essere utilizzati per aggirare i filtri di DALL-E 2, creando contenuti di dubbia moralità.
DALL-E 2 e gli stereotipi
Questa Intelligenza Artificiale ha dimostrato inoltre di avere diversi limiti per quanto riguarda gli stereotipi e la discriminazione in generale. Sembra infatti che DALL-E 2 sia in grado di generare immagini basandosi sugli stereotipi che spesso influenzano anche le persone.
Tali stereotipi riguardano sicuramente la discriminazione razziale. Se infatti chiediamo immagini di avvocati, il sistema genererà una serie di disegni di persone di razza bianca.
Ma questo discorso si estende anche alla discriminazione di genere, in un senso o nell’altro. Se, ad esempio, chiediamo a DALL-E 2 di creare l’immagine di un infermiere, usciranno comunque figure femminili.
In realtà la difficoltà di questo sistema può essere dovuta anche al fatto che per il momento si basa esclusivamente sulla lingua inglese. A differenza dell’italiano, questa lingua ha la tendenza ad accorpare due generi nella stessa parola. Ed ecco che sia “infermiera” che “infermiere” vengono definite con la stessa parola: “nurse”.
Il lavoro di OpenAI per migliorare la sicurezza di DALL-E 2
Proprio per risolvere questi bias e gestire le limitazioni di DALL-E 2, l’azienda ha deciso di non rendere per il momento il sistema disponibile nella loro API.
Attualmente stanno studiando DALL-E 2 insieme a un gruppo selezionato di sviluppatori. Ecco per ora dove sono arrivati a migliorare la sicurezza del sistema:
- Hanno limitato la capacità dell’Intelligenza Artificiale di creare immagini che generano odio e violenza, o che abbiano un contenuto per adulti. Sono arrivati a questo risultato eliminando dai dati di addestramento i contenuti espliciti.
- Tramite tecniche avanzate sono riusciti a impedire al sistema di riprodurre immagini molto realistiche di volti reali, compresi quelli di vari personaggi pubblici.
- Hanno implementato la loro politica sugli abusi, impedendo agli utenti di generare contenuti per adulti, politici o violenti. Se quindi il messaggio di testo dovesse richiedere contenuti di queste categorie, queste non verranno generate.
Non dimentichiamo, inoltre, che DALL-E 2 è un Intelligenza Artificiale, e come tale è stata sviluppata per apprendere. Per questo motivo il progetto futuro di OpenAI è quello di aprire il sistema a un numero più elevato di utenti, così che il sistema, e gli sviluppatori stessi, possano migliorarlo dall’interno.
OpenAI e il copyright
Abbiamo studiato DALL-E 2 a fondo, ne abbiamo analizzato le abilità e le criticità, abbiamo visto cosa è in grado di fare. Speriamo che un giorno verrà utilizzata a servizio di tutti gli utenti che desiderano avvalersi di questo servizio, ma anche qui sorgono dei dubbi.
Nel momento in cui questa AI andrà a creare delle immagini sulla base di una descrizione dell’utente, chi ne detiene il copyright?
Al momento OpenAI non ha dato una risposta a questa domanda, anche se possiamo provare a rispondere noi, sulla base delle loro esperienze passate. Quando crearono MuseNet, avevano dichiarato di non avere il copyright della musica, ma allo stesso tempo hanno chiesto agli utenti di non utilizzare questa musica per scopi commerciali.
Solo il tempo ci dirà come OpenAI intende gestire l’annoso problema dei diritti d’autore. Staremo a vedere.
Conclusioni
Al di là dei rischi e delle difficoltà attuali di DALL-E 2, possiamo comunque considerarla un enorme passo avanti nella tecnologia. Qualche anno fa non avremmo mai pensato che potesse esistere un’Intelligenza Artificiale in grado di creare immagini utilizzando solamente le parole.
Ora, invece, ci troviamo alle soglie di un mondo che si fa sempre più tecnologico, e sempre più “intelligente”. Ora esistono sistemi che sono in grado di leggere un’informazione, capirla, e interpretarla nel modo corretto, generando il contenuto corrispondente.
DALL-E 2 è un prodotto davvero innovativo, e speriamo che, prima o poi, sarà alla portata di tutti gli sviluppatori del mondo.