DALL-E 2, le nouveau générateur Texte en Image d’OpenAI – Quand l’IA peut créer des images à partir de texte.

OpenAI a dévoilé la nouvelle version de son IA (intelligence Artificielle) ‘Text-to-Image‘ DALL-E ; J’ai nommé DALL-E 2 (Mais où vont-ils chercher tout ça). Pour ceux qui se posent la question, c’est bien un mot-valise venant de Salvador Dali (le peintre espagnol avec les montres qui coulent et les belles moustaches) et WALL-E, le robot de Pixar.

Cette version 2 est une amélioration considérable par rapport à la première version qui était déjà impressionnante. Elle est capable de produire des images encore plus réalistes et convaincantes, grâce à une meilleure compréhension du langage naturel. Elle sera mise à disposition gratuitement sur OpenAI Platform, permettant ainsi à tous les développeurs de l’exploiter pour créer leurs propres applications. Par contre l’accès pour le tout-venant (vous et moi) sera limité dans un premier temps comme expliqué plus bas.

C’est quoi ce DALL-E 2 de OpenAI ?

La version courte… Sa fonction : convertir des descriptions textuelles simples (prompts) en images. La version 2 est une évolution notable qui peut produire des images d’un réalisme inimaginable auparavant.

Cette IA entre dans la catégorie des « Text to Image Generator » (Générateur de texte en image). On y accède par un « SaaS », ou « Software As A Service » ; Une méthode de distribution de programmes via Internet en tant que service. En clair, l’application n’est pas sur votre ordinateur mais sur un serveur à qui vous envoyez votre demande, qui la traite, et vous renvoie le résultat. Comme Gmail par exemple.

Avantage : Vous pouvez la faire fonctionner sur n’importe quoi ayant accès à Internet. Inconvénients ; sans accès Internet, pas de service et vous ne possédez jamais l’application. Mais assez de blabla et

Différences entre ancienne et nouvelle version

Voici un exemple de la différence sur une même requête des rendus entre les deux versions ; « An armchair in the shape of an avocado » – (Un fauteuil en forme d’avocat)

DALL-E 2 possède une meilleure résolution, une meilleure compréhension et de nouvelles fonctionnalités comme le ‘In-painting‘. Elle est même capable de partir d’une image et de produire des versions avec différents styles et points de vue. Un réseau neuronal a été formé à partir de photographies et de leurs descriptions textuelles pour produire DALL-E.

Grâce au « Deep Learning » (apprentissage profond), il tire des enseignements des relations entre les objets, en plus de comprendre des objets spécifiques comme les koalas et les motos. Le système est capable de produire toute image ayant un lien avec une autre chose ou activité, comme l’image d’un koala sur une moto, lorsque vous le lui demandez.

Un autre exemple:
Prompt : « a painting of a fox sitting in a field at sunrise in the style of Claude Monet » (une peinture d’un renard assis dans un champ au lever du soleil dans le style de Claude Monet)

Exemple texte en image que l’IA peut créer

S’il y a un domaine dans lequel une image vaut mieux qu’un long discours, c’est bien celui-ci. Voici donc une sélection de mes images préférées et du prompt associé quand il est indiqué. Toutes les images que vous pouvez voir ci-dessous ont été générées par DALL-E 2.

Entrons tout de suite dans le vif du sujet avec quelques exemples…

dall-e 2 001 A beautiful loaf of challah bread with muscled arms and big biceps

« A beautiful loaf of challah bread with muscled arms and big biceps« 
Une belle miche de pain challah avec des bras musclés et de gros biceps

dall e 2 - a photograph of a dog wrapped like a burrito

« a photograph of a dog wrapped like a burrito« 
Photographie d’un chien emballé comme un burrito

Cela peut sembler être un canular pour certains, mais c’est tout à fait réel. Une ligne de commande vous demande une brève description de ce que vous voulez, et une Intelligence Artificielle va créer une image à partir de votre demande. C’est tellement réel que de nombreuses IA font désormais la même chose. Certaines d’entre elles le font depuis quelque temps et sont ouvertes au public de façon gratuite ou payante, alors que d’autres sont en phase d’Alpha ou Beta test.

« Photo of a lazy Chihuahua refusing to get off the couch, 4k, highly detailed« 
Photo d’un chihuahua paresseux refusant de se lever du canapé, 4k, très détaillée

dall e 2 Stained glass windows of holy Pikachu

« Stained glass windows of holy Pikachu« 
Vitraux du saint Pikachu

« Anthropomorphic golden retriever playing Diablo and streaming on twitch digital art« 
Un golden retriever anthropomorphe jouant à Diablo et diffusant en streaming sur twitch art numérique

« a wolf with fur made of neon light, digital art« 
un loup dont la fourrure est faite de néons, art numérique

Un papillon perché sur le museau d’un dragon endormi, art numérique

photo d’une vache qui est aussi une star du hip-hop en train de créer un hit en studio

Dall-E 2 peut aussi réaliser variations, inpainting, et text diffs ;

Le logiciel est un modèle flexible qui peut aller au-delà de la création de phrases en images. Le procédé CLIP qu’utilise OpenAI permet d’expérimenter le processus génératif en produisant différentes sorties pour une entrée donnée. En clair ;

  • À partir d’une description écrite, il peut générer des visuels et des arts originaux et réalistes. Il a la capacité de mélanger et d’associer des idées, des propriétés et des styles.
  • À partir d’une légende en langage naturel, il peut effectuer des modifications réalistes de photos existantes. Il a la capacité d’ajouter et de supprimer des éléments tout en tenant compte des ombres, des reflets et des textures.
  • Prendre une image et en réaliser plusieurs versions à partir de l’original.

Variations

Nous pouvons avoir un aperçu de ce que CLIP pense être à la fois remplaçable et vital à partir de l’entrée (cohérent à travers les photos) (changements à travers les images). « Les informations sémantiques… ainsi que les caractéristiques artistiques » sont fréquemment préservées dans DALLE 2.

Voici quelques variations de la même prompt

« Teddy bears shopping for groceries in ancient egypt«  (Des ours en peluche faisant leurs courses dans l’Égypte ancienne.)

« A bowl of soup that looks like a monster spray-painted on a wall » (Un bol de soupe qui ressemble à un monstre peint à la bombe sur un mur.)

Inpainting

Mais ses capacités ne s’arrêtent pas là. L’IA peut également effectuer des modifications sur des images déjà existantes, remplir, rajouter ou remplacer une partie d’une image avec des graphismes générés qui correspondent à votre requête en langage naturel simple. C’est ce qu’on appelle le « in-painting ».

Voici un exemple avec un chien sur un fauteuil. Le logiciel vous permet d’effacer une partie de l’image et de lui demander de la remplacer par ce que vous lui demandez par l’intermédiaire d’une ligne de texte.

L’application parvient à adapter l’objet ajouté au style déjà présent.
Dans l’exemple ci-dessous, le chien corgi que vous souhaitez rajouter à l’image original à gauche copie le style du tableau dans la deuxième image alors qu’il a un aspect photo réaliste dans la troisième.

Outpainting

C’est le même principe que le « Inpainting », sauf que là, on va demander à l’IA d’extrapoler ce qu’il pourrait y avoir en dehors du cadre de l’image.

Exemple…

Vous connaissez probablement ce tableau ‘La Jeune Fille à la perle‘ De Wermeer. Eh bien disons que vous vous demandez à quoi aurait pu ressembler cette œuvre si l’artiste avait décidé de représenter la jeune fille chez elle dans son cadre habituel.

Il vous suffirait de prendre l’image, de la réduire, et par petites touches que vous assembleriez l’une après l’autre de demander à l’IA de créer tout un arrière-plan. Et cela pourrait donner…

Quelque chose comme ça:

Text Diffs

Une autre grande fonctionnalité de DALLE 2 est l’interpolation. DALLE 2 a la capacité de transformer une image en une autre en utilisant une méthode connue sous le nom de « text diffs ».

Ci-dessous, deux exemples avec une photo originale d’une devanture de fleuriste et une autre avec un design de salle de bains. L’image originale est à gauche ou en haut selon que vous regardez cet article sur un ordinateur ou un téléphone.

DALLE 2 peut en outre modifier les objets en améliorant les interpolations. L’iPhone dans le scénario ci-dessous est « non modernisé ». Cela revient à effectuer des calculs entre des paires image-texte, comme l’explique Aditya Ramesh, premier auteur de l’article : « Un téléphone ancien » plus l’image d’un iPhone donne « un iPhone ».

Les lacunes actuelles du générateur

L’outil n’est pourtant pas parfait. Il possède quelques lacunes tant en termes d’utilisation que de compréhension et de performances. Côté utilisation, c’est anglais ou rien au niveau des requêtes. Vu les précisions qu’il va falloir inclure pour obtenir quelque chose d’à peu près en relation avec ce que vous désirez, il va falloir un niveau d’anglais minimum.

En ce qui concerne les requêtes, on se trouve un peu perdu au niveau des requêtes et on ne sait pas trop quoi demander au départ et on se retrouve parfois avec des résultats décevant. Un peu de pratique et d’espionnage d’autres utilisateurs peut être nécessaire pour commencer à obtenir des choses proches du résultat que l’on souhaite.

Enfin s’il y a un domaine dans lequel ces systèmes ne sont pas très performants, c’est sur les visages, voire les mains. Cela s’améliore de semaine en semaine grâce à l’apprentissage de l’AI, mais il y a encore beaucoup de ratés.

DALL-E 2 peut être cependant limité par différentes choses. Par exemple, il rame un peu, c’est le moins que l’on puisse dire, sur les notions de  » X sur Y ». Des fois ça passe, et des fois… Moins…

Voici ce que l’on récupère avec la requête suivante :
« a red cube on a blue one » – Un cube rouge sur un bleu

Les lacunes dans la formation peuvent également constituer une contrainte. Par exemple, si vous saisissez « babouin », DALL-E produira une tonne de babouins fantastiques puisqu’il a appris ce qu’est un babouin grâce à des photographies et des descripteurs précis. En revanche, si vous saisissez « singe hurleur », DALL-E vous donnera sa meilleure idée de ce que cela peut être, car il n’a pas encore appris ce qu’est un singe hurleur.

La méthode utilisée pour entraîner DALL-E est très intéressante car elle lui permet d’appliquer ce qu’il a appris à de nouvelles photos après avoir appris à partir d’une série d’images annotées existantes. Par exemple DALL-E peut deviner à quoi ressemblerait un singe s’il devait accomplir une tâche inconnue à partir d’une photographie de l’animal. Comme remplir une déclaration d’impôts en portant un chapeau ridicule (si, si j’en ai trouvé une).

DALL-E illustre la manière dont les personnes créatives et les machines peuvent collaborer pour créer de nouvelles choses, renforçant ainsi notre capacité de créativité.

Les limites de DALL-E 2 et l’aspect éthique

Les gens derrière la plupart des ‘text to image Generator’ ont un peu peur de ce que les utilisateurs mal intentionnés peuvent faire avec un outil pareil. Image archi Gore, DeepFake de célébrités : la liste est longue. Du coup, chaque application (ou plutôt ses programmeurs) a limité les mots que l’IA va traiter.

Cela va des noms de personnes célèbres à des mots en relation avec un sujet particulier, voir pour les plus extrémistes des censeurs des mots simples mais que le politiquement correct à tendance à bannir, surtout aux USA comme, par exemple, le mot ‘Gun’ (arme à feu) pour certaines IA.

Si vous utilisez trop certains mots ou expressions qui ne sont pas acceptés par leur système de censure automatique, vous pouvez même vous faire bannir ! C’est parfois tellement tiré par les cheveux que certains utilisent un outil fourni par OpenAI pour savoir si notre requête ne va pas entraîner la radiation du compte. On ne peut pas dire que cet outil soit d’ailleurs très convivial.

En suivant ce lien vous tomberez sur le processus de vérification automatisé de votre requête.

Ensuite, il ne peut pas générer des images de choses qu’il n’a jamais vues auparavant, et plus la demande est éloignée des données qu’on lui a fournies, plus ses résultats peuvent être bizarres ou absurdes.

Pour finir, il ne fait que dans les images. À ma connaissance, il n’y a pas encore de système permettant de faire quelque chose d’équivalent avec des vidéos, mais ce n’est probablement qu’une question de temps.

Comment une Intelligence Artificielle peut passer de texte à image

Imaginez une maison, un arbre et un soleil sur un fond de ciel. Pensez à ce que le dessin pourrait donner dans votre esprit. Ce que vous venez de voir dans votre tête est l’équivalent d’une image qui s’incruste dans le cerveau humain. Vous ne pouvez que deviner le produit final, mais vous savez quels éléments clés doivent être inclus. L’approche traditionnelle fait passer le lecteur du mot écrit à la scène imaginée.

Bien évidemment, le processus réel est un peu plus compliqué pour une intelligence artificielle, mais une explication détaillée de la génération « Text to Image » n’est pas le sujet de cet article. Nous y reviendrons probablement mais sachez simplement que c’est le système CLIP qu’utilise OpenAI pour transcrire un texte en image.

dall-e-2-diagramme-texte-to-image
C’est tout de suite beaucoup plus clair non ?

Que faire pour pouvoir utiliser DALL-E 2 sur le site d’OpenAI

DALL-E 2 est en phase bêta au moment ou nous rédigeons cet article. La seule façon d’y accéder est de s’inscrire sur la ‘Waitlist‘ (la liste d’attente) et d’espérer être dans les heureux élus dont le nombre sera quand même d’un million. On a quand même ses chances.

Vous pouvez vous inscrire sur la Waitlist en remplissant le formulaire que vous trouverez sur le site du laboratoire OpenAI.

Combien coûte DALL-E 2

Nous sommes en phase Bêta test, donc tout cela risque de changer. Pour l’instant, le système peut être utilisé gratuitement si vous êtes accepté dans la bêta avec des limitations de génération d’image. Pour aller au-delà, il faudra payer. Voici la grille tarifaire que nous avons récoltée.

PrixNombre de créditsNombre d’images
Premier moisGratuit50200
Mois suivantsGratuit1560
Pack de crédits additionnels15$115460
Tarification DALL-E 2 Phase Bêta

Quels droits sur les images de DALL-e 2

OpenAI est assez claire à ce sujet. « À partir d’aujourd’hui, les utilisateurs obtiennent tous les droits d’utilisation pour commercialiser les images qu’ils créent avec DALL-E, y compris le droit de réimprimer, de vendre et d’offrir des produits dérivés ».

Cette mesure s’applique également de manière rétroactive aux images créées pendant l’aperçu de recherche.

Les IA alternatives à DALL-E 2

DALL-E 2 est loin d’être le seul générateur d’images alimenté par IA. Il existe d’autres outils qui peuvent créer des images à partir de descriptions textuelles. Si beaucoup sont moins performantes que lui, de nombreux générateurs ‘text-to-image’, déjà disponibles ou en cours de développement, peuvent lui tenir la dragée haute ou lui faire carrément de l’ombre.

On peut citer MidJourney, Imagen, Stable Diffusion, NightCafé et beaucoup d’autres.

Notre avis sur DALL-E 2

Au moment ou nous rédigeons cet article, DALL-E 2 est l’une des meilleures, si ce n’est LA meilleure IA texte en image disponible pour le grand public. Certains lui préféreront Midjourney, mais selon nous, chacun brille plus que l’autre dans un domaine spécifique. Si vous voulez des images réalistes, DALL-E 2 gagne. Si vous préférez des compositions de tableaux ou des dessins, Midjourney prend l’avantage.

Attention, cela ne veut pas dire que l’un ou l’autre soit mauvais dans l’autre domaine. Il est juste plus performant dans certains domaines spécifiques.

Quoi qu’il en soit, l’IA DALL-E 2 de OpenAI est facilement dans le Top 5 des meilleures intelligences artificielles disponibles dans la catégorie des textes en image.