Les IA (intelligences artificielles) générateurs de textes en images étaient encore quasiment de la science-fiction il y a quelques années. Elles sont désormais bien réelles, et accessibles à tous pour des sommes souvent modiques, voire gratuitement.
Dans ce guide, j’ai classé et passé en revue les 5 meilleures IA capables de créer des images à partir de texte ainsi que mes 3 premiers choix, afin que vous puissiez choisir celle qui vous convient le mieux.
DALL-E 2
La référence actuelle des IA texte en image. C’est l’évolution de la version sortie en janvier 2021 par OpenAI. La qualité des rendus est excellente, surtout en photo Réalisme.
Midjourney
Le concurrent qui n’en finit pas de marquer des points. Accessible à tous, facile d’utilisation et aux rendus artistiques bluffant. Sous Discord uniquement
Stable Diffusion
Le plus récent mais celui dont on parle le plus. Simplement parce qu’il est Open Source qu’il devient plus performant de jour en jour et sa communauté explose.
Lorsque l’on découvre ces outils pour la première fois, on a tendance à se dire que ça va sûrement être compliqué.
Il n’est est rien.
Quelques fonctionnalités et les paramètres qui y sont liés sont présents sur les tous les outils les plus populaires, mais rien de bien compliqué.
Ce qu’il faut retenir :
- Les rendus (output) sont différents d’un générateur à l’autre.
- Vous pouvez utiliser ces outils par l’intermédiaire de votre navigateur.
- Ils sont très largement payants si vous les utilisez sur votre navigateur.
- Il existe une solution gratuite Open Source.
- On peut installer l’un de ces outils sur son ordinateur (limitations techniques).
- Il n’y a pas de prix d’achat de ces IA mais des plans payants.
- Les améliorations et les bonds technologiques sont très fréquents.
- Certaines compagnies censurent des résultats et même des requêtes avec banissement à la clé.
- Trois générateurs texte en image se partagent la quasi-totalité du marché.
On peut penser que toutes les Intelligences artificielles permettant de produire des images fonctionnent sur le même principe et puisqu’elles utilisent souvent les mêmes données et outils, les différences sont mineures.
C’est en fait la façon dont ces données sont utilisées par les programmeurs de chaque IA et la réactivité des mises à jour en parallèle avec le temps d’apprentissage que vous être prêt à consacrer à la prise en main de l’outil qui va faire la différence.
Voyons tout cela de plus près.
Quels sont les meilleurs générateurs texte en image ?
1. Dall-E 2
Le générateur de texte en image vedette de OpenAI. (Gratuit jusqu’à 15 requêtes par mois puis 15$ pour 115 requêtes supplémentaires).
Nommé en hommage au peintre espagnol Salvador Dali, Dall-E est le programme d’intelligence artificielle probablement le plus connu avec son grand concurrent direct Midjourney.
L’accès à Dall-E 2 est désormais ouvert à tous depuis le 28 septembre 2022.
La sortie initiale de Dall-E remonte à peu de temps puisqu’il a été annoncé par le laboratoire OpenAI en janvier 2021. Que de chemin parcouru en moins de deux ans. On peut se demander si à ce rythme, on n’aura pas du texte en vidéo dans deux ou trois ans de plus…
Même si DALL-E n’était pas le premier logiciel d’intelligence artificielle proposant de convertir du texte en image, il est celui qui a instauré un certain standard de qualité qui permettait d’obtenir des choses un peu moins aléatoires, voire carrément terrifiantes que les premières IA pouvaient vous sortir.
À peine plus d’un an après sa sortie, Dall-E est prêt à sortir sa version 2 en bêta testing. Les améliorations des rendus sont vraiment impressionnantes en un an seulement. Aujourd’hui, on en est arrivé à un tel stade que les photographes professionnels, les graphistes, artistes et illustrateurs se font beaucoup, beaucoup de soucis.
Et ce n’est pas le fait qu’une œuvre générée par IA gagne un premier prix dans un concours artistique qui risque d’atténuer leurs craintes.
Principales fonctionnalités
- Génération texte en image
- Inpainting
- Outpainting
- Edit
- Img to img
Interface
Vous ne risquez pas de vous perdre dans des sous menus compliqués. Vous êtes sur une interface à la Google (dans sa version ‘moteur de recherche’).
Une ligne de commande et vos images en dessous ou quelques illustrations. Les images générées peuvent être éditées pour en modifier certaines parties (Inpainting) et le menu latéral sous votre nom en haut à droite vous permet de passer en mode ‘Outpainting’.
Prix
Une fois l’inscription terminée et validée, un pop-up avec l’inscription suivante apparaît (en anglais).
Vous recevez 50 crédits gratuits pendant votre premier mois, et 15 crédits gratuits se renouvelleront chaque mois par la suite.
Vous pouvez toujours acheter des crédits supplémentaires.
- Chaque utilisateur reçoit 50 crédits gratuitement lorsqu’il s’inscrit.
- Chaque mois il recevra 15 crédits supplémentaires.
- Pour 15$ supplémentaires il peut recevoir 115 crédits (environ 460 images).
1 crédit permet la génération d’une requête (une ligne de commande) qui produit 4 images ou une variation ou modification d’une image existante qui renvoie trois images.
Utilisation commerciale
En ce qui concerne les applications commerciales de DALL-E, elles ont changé en cours de route. Vous pouvez désormais utiliser les images réalisées à l’aide de DALL-E d’OpenAI à des fins commerciales, ce qui n’était pas le cas lors du lancement du programme bêta. Mais à certaines conditions décrites dans leurs conditions d’utilisations.
Voici les termes (traduits). Vous pouvez retrouver, en suivant ce lien, la version originale en anglais.
Utilisation de DALL-E pour des projets commerciaux
À partir d’aujourd’hui, les utilisateurs obtiennent tous les droits d’utilisation pour commercialiser les images qu’ils créent avec DALL-E, y compris le droit de réimpression, de vente et de commercialisation. Cela inclut les images qu’ils ont générées pendant l’aperçu de recherche.
Des utilisateurs nous ont fait part de leur intention d’utiliser des images DALL-E pour des projets commerciaux, tels que des illustrations pour des livres pour enfants, des illustrations pour des bulletins d’information, des concepts et des personnages pour des jeux, des planches d’ambiance pour le conseil en design et des story-boards pour des films.
Les limites d’utilisation
Si OpenAI est assez souple sur les droits d’utilisation, ils le sont beaucoup moins sur le type de requête que vous pouvez faire.
Une partie spécifique du corps féminin (épaule ?), du sang, de la violence ? N’y pensez même pas… Avant la publication officielle, il était même interdit de télécharger des images de personnes réelles.
Ça n’a pas plu du tout aux gens qui voulaient l’utiliser pour essayer virtuellement des tenues et des costumes, ou faire des photos de famille en changeant le cadre ou le style.
Si vos requêtes vont même un peu trop souvent dans ce sens à leurs goût, vous pouvez carrément être banni du système.
Certains y voient la censure du politiquement correct et du ‘Wokisme’. D’autres une limitation aux abus que cette technique pourrait engendrer.
Bref, c’est encore en voie de réflexion, mais les limitations sont là et elles sont nombreuses.
Au-delà des limitations volontaires, il y a les autres. À savoir les limites de la technologie et des codes actuels.
Les représentations des mains, des doigts, des membres en général, les visages et plus particulièrement les yeux sont souvent problématiques en qualité de rendu. À tel point que de plus en plus de solutions spécifiques sont proposées pour ‘réparer’ les visages déformés par exemple.
Dall-E 2 a également des difficultés avec les arrière-plans, les scènes avec des personnages multiples, les textes et inscriptions avec lesquelles il n’est vraiment pas très fort.
Ce que j’aime / Ce que je n’aime pas avec Dall-E 2
J’aime
- La qualité des rendus.
- Le respect des requêtes.
- La facilité d’utilisation.
- Le Inpainting.
- Le Outpainting.
- La rapidité de traitement des requêtes.
- Les droits sur les images produites.
- Crédits offerts tous les mois.
Je n’aime pas
- Devoir donner mon téléphone pendant l’inscription.
- La censure.
- Le risque de bannissement.
- Bugs sur les mains et les visages.
- Difficultés à gérer plus d’un personnage.
- Cher.
Comment débuter avec DALL-E 2
Pour pouvoir débuter, rien de plus simple désormais.
- Allez sur le site (bouton ci-dessous).
- Cliquez sur Sign Up.
- Choisissez le mode d’inscription que vous préférez (Email, Compte Google, Compte Microsoft).
- Remplissez les champs demandés (dont votre numéro de téléphone… Oui moi aussi ça m’énerve).
- Et voilà. 50 Crédits pour s’amuser.
2. Midjourney
La meilleure IA texte en image pour des réalisations artistiques (à partir de 10$ par mois. Essai gratuit disponible).
Comme avec son concurrent direct cité plus haut, Midjourney vous permet de créer des images à partir d’un texte. Les images générées par l’IA vous appartiennent et vous êtes libre d’en faire ce que bon vous semble.
Et même si la plupart des utilisateurs l’utilisent pour créer de l’art numérique, l’intelligence artificielle peut créer une image réaliste ou abstraite que vous pouvez utiliser dans un cadre commercial pour votre entreprise ou pour votre propre plaisir. Pourquoi pas en imprimant votre création sur un Tee-shirt par exemple ?
Les possibilités offertes sont sans limite et l’on se retrouve facilement à passer plusieurs heures devant l’écran à générer, modifier et affiner ses créations.
L’équipe travaille en permanence sur de nouvelles fonctionnalités et sur l’amélioration des rendus.
Dernier exemple en date ; De nombreux utilisateurs se plaignaient de la qualité des rendus photo réalistes par rapport à ceux de Dall-E 2.
Peu de temps après cette remarque, l’équipe a implémenté un système de remastérisation ou d’inclusion d’un paramètre pour un meilleur rendu photo réaliste. Les résultats sont ahurissants. Là ou Midjourney pouvait parfois être un peu à la traîne par rapport à DALL-E 2, on les retrouve désormais ou coude à coude.
Principales fonctionnalités
- Génération texte en image
- Variations
- Upscaling
- Image-to-image
- Inpainting
Expérience utilisateur
Disons-le tout de suite, même si de nombreuses personnes apprécient l’aspect convivial d’un salon de discussion de Discord, je ne suis pas vraiment fan de l’interface que cela offre.
C’est souvent fouillis, j’ai parfois du mal à retrouver mon propre texte et savoir utiliser Discord demande un apprentissage supplémentaire dont je pourrais me passer. Malheureusement pour l’instant il n’y a pas beaucoup d’options.
Il y a donc un certain nombre de commandes à connaître pour pouvoir utiliser Midjourney dans le cadre de l’interface de Discord. Pas de panique cependant tout cela est assez simple et une simple commande d’aide vous donnera toutes les possibilités et les options auxquelles vous avez accès.
Les images sont générées rapidement en mode ‘Fast GPU‘. Comptez quelques dizaines de secondes.
Par contre, si vous souhaitez économiser et passez en mode ‘Relax GPU’, les temps d’attentes vont nettement s’allonger.
Quoi qu’il en soit, comme vous pouvez le constater avec les galeries d’image que j’ai rassemblées pour vous, les résultats sont impressionnants avec un peu de pratique.
Prix
L’utilisation de cet outil se fait selon un calcul de temps machine.
Un plan gratuit est disponible. Il permet d’utiliser du temps machine défini et ne se réinitialise jamais
Les plans payants sont les suivants :
- Basic – 10$ / mois = 200 min / mois,
- Standard – 30$ / mois = 15 heures (900 min) / mois + Accès au mode ‘Relax’
- Corporate – 600$ / an = 120 heures (2 880 min) / an + Accès illimité au mode ‘Relax’
Quel que soit le mode, 1 minute = 1 requête. Tous les modes payants permettent d’acheter 1 heure de temps machine (60 requêtes) pour 4$.
Le mode ‘Relax’ va calculer les images de plus en plus lentement au fur et à mesure que vous l’utilisez, mais plus aucun temps machine ne vous est décompté. En mode Relax, une requête = 0 crédit. Le ‘Upscaling max’ n’est pas supporté en mode ‘Relax’.
Ce que j’aime / Ce que je n’aime pas avec Midjourney
J’aime
- La qualité des rendus.
- L’aspect artistique des images générées.
- La qualité de la communauté.
- Les améliorations constantes apportées à l’IA.
Je n’aime pas
- Utilisation obligatoire de Discord.
- Bug de certains rendus de visage.
- Images générées parfois très éloignées des requêtes.
- Prix un peu élevé pour le plan le plus intéressant (30$ par mois Hors Taxes).
Pour bien démarrer :
- Préalable indispensable : posséder un compte Discord (lien d’inscription si vous ne possédez pas de compte).
- Rendez-vous sur le site web de Midjourney.
- Cliquez sur le bouton ‘Join the Beta’.
- Acceptez l’invitation de leur serveur Discord.
Vous y êtes ! Pour savoir comment générer vos premières images, n’hésitez pas à consulter notre article complet sur Midjourney.
Le plan le plus intéressant :
Plan Standard : 30$ /mois – 15 heures (900 min) / mois + Accès au mode ‘Relax GPU’ (aucune limitation de requêtes)
3. Stable Diffusion
Le générateur texte en image de Stability AI performant et Open Source (Gratuit / 10£ les 1 000 images).
Un logiciel Open Source, pour ceux qui ont un doute, ça veut dire que tout le monde y a accès. Dans la plupart des cas, les utilisateurs sont libres de modifier, de redistribuer et de faire ce qu’ils veulent avec les programmes Open Source.
Et bien sûr, de les utiliser gratuitement.
D’ailleurs, nous vous proposerons très prochainement un article recensant les principaux logiciels libres pouvant remplacer toutes les versions payantes que vous utilisez peut être.
Stable Dissusion peut même être utilisé sur votre propre ordinateur, contrairement à toutes les autres IA text-to-image qui sont plutôt accessibles par le biais d’un navigateur qui s’adresse à un ordinateur (serveur) distant.
Ça, c’est la théorie.
Parce qu’en réalité, les procédures pour en profiter sur un ordinateur sont encore très limitantes et s’adressent uniquement à des utilisateurs assez calés en informatique et qui possède le matériel adéquat.
Au moment ou j’écris cet article, il faut un PC avec une carte Nvidia avec CUDA et pas mal de VRAM. Et même quand vous avez tout ça, vous risquez d’être un peu perdu en vous retrouvant face à la pauvre interface qui vous est offerte.
Bien évidemment cela va évoluer très vite et je ne doute pas que Stable Diffusion soit disponible pour tous les PC quelle que soit leur carte graphique (sous réserve qu’elle possède une puissance minimale). Les Mac ne devraient pas suivre bien longtemps derrière.
Mais en pratique, aujourd’hui, si vous voulez profiter de Stable Diffusion de façon confortable, il faudra passer par DreamStudio, l’interface d’utilisation des développeurs de Stable Diffusion. Vous bénéficierez ainsi d’une interface digne de ce nom et surtout de la puissance de calcul de leurs serveurs.
Principales fonctionnalités
- Texte en image
- Inpainting
- Image to Image
- Outpainting en cours
Expérience utilisateur
Si vous souhaitez refaire le même genre, voici ma requête :
medieval fantasy head and shoulders portrait from game of thrones of Sophie Marceau as a viking swashbuckler, photo by philip – daniel ducasse and yasuhiro wakabayashi and jody rogac and roger deakins, 35mm, sharp.
En passant par DreamStudio, l’interface est simple à prendre en main, conviviale, rapide, mais payante.
Sans passer par Dream Studio, les options qui vous restent vont être beaucoup moins conviviales.
Au moins en ce qui concerne l’installation.
Vous allez soit devoir utiliser des solutions distantes hébergées sur les serveurs d’une société comme Hugging Face ou Google Colab, ou encore des procédures assez compliquées pour les néophytes (et en anglais) qui nécessitent l’installation de beaucoup de ‘Dependencies‘ (programmes et bibliothèques) dont la pré-installation est indispensable au bon fonctionnement du code proposé principalement sur GitHub.
Pour en savoir plus, rendez-vous sur notre article complet sur Stable Diffusion qui vous donnera des détails sur la procédure.
Les versions pour bidouilleurs en local sont souvent très rébarbatives mais très complètes avec des outils supplémentaires souvent intégrés comme la restauration faciale et des solutions d’agrandissement de taille (Upscaler) très bonnes et gratuites.
Prix
Le prix fait référence aux tarifs pratiqués sur la plateforme DreamStudio des développeurs de Stable DIffusion. Les autres solutions, dont celles consistant à faire fonctionner le générateur texte en image en local (sur votre ordinateur si vous préférez) sont bien sûr gratuites.
Une fois inscrit, vous avez le droit à un petit pécule vous permettant de réaliser environ 200 générations d’images.
Une fois épuisé, il faut acheter des crédits. Cela fait à la louche 1 centime l’image en réglage standard. Cependant, il faut savoir que plus vous demanderez d’étapes dans le processus de création (steps) et une résolution élevée, plus l’image coûtera cher.
- 512 x 512 avec 10 steps = 0.2 crédits par image
- 1 024 x 1 024 en 150 steps = 24 crédits par image
- L’image par défaut pour 1 crédit est en 512 x 512 / 50 steps.
Ce que j’aime / Ce que je n’aime pas avec Stable Diffusion
J’aime
- Open Source.
- Mises à jour fréquentes.
- Qualité des rendus.
- Utilisation gratuite avec ordinateur possible.
- Paramètres disponibles.
- Communauté.
- Fonctionnalités.
- Regroupe différents outils.
Je n’aime pas
- Les interfaces sont encore très limitées en versions gratuites.
- Les générations peuvent être très lentes en version locale.
- La facture monte trop vite en Haute Résolution / Steps sur DreamStudio.
- Les images disparaissent de DreamStudio.
- Encore un poil en dessous de MJ et Dall-E, mais on y est presque (rectificatif du 29/9/22 ; on y est…).
Bonne qualité des rendus, Open Source, plein de paramètres et d’outils inclus (réparation des visages, Upscaling) ce générateur change la donne. De plus, sa communauté toujours plus nombreuse est très active. Les deux mastodontes doivent se faire un peu de soucis…
Voilà comment démarrer correctement :
- Rendez-vous sur le site web de DreamStudio.
- Inscrivez-vous pour essayer la version gratuite.
- Amusez-vous.
- Si l’outil vous plaît, achetez des crédits pour 10$.
Le plan le plus intéressant : 10$ / 1 000 crédits. Ou alors installation locale et génération gratuite.
4. NightCafe
Le générateur text-to-image le plus facile d’accès (9.99 USD par mois)
Lancé en novembre 2019 sur Reddit sous une forme différente n’utilisant pas à l’époque le protocole texte en image, NightCafé s’est très rapidement fait connaître sur les réseaux sociaux.
Personnellement, c’est avec NightCafé que j’ai découvert le générateur texte en image pour la première fois. Son gros point fort ; la facilité de réaliser sa première génération. Là ou d’autres outils vont vous demander adresse, inscription, confirmation, voire carte bleue, NightCafé ne vous demande rien.
Par contre si vous voulez sauvegarder ou approfondir vos travaux précédents, il vous demandera d’ouvrir un compte et de lui fournir une adresse mail.
Vous ne le regretterez pas.
En échange, tous les jours, NighCafé vous enverra un émail en vous offrant quelques crédits pour des générations gratuites.
Il existe un système de plan pour avoir des quantités de crédits un peu plus conséquentes qui démarre à 7.99 USD par mois pour 40 crédits.
Même s’il est simple d’accès, il possède tous les réglages classiques allant de la résolution au temps de calcul (qui semble se rapprocher des ‘Steps’ des autres systèmes).
On peut choisir une image de départ et son importance, le ‘aspect ratio‘ (les proportions), l’importance de la requête, la méthode d’échantillonnage et le nombre d’image. Pas d’Inpainting ou de Outpainting pour l’instant.
Si vous voulez un outil simple à utiliser et qui peut être potentiellement utilisé gratuitement pendant un bon moment, Nightcafé est un excellent générateur texte en image, même si la qualité des images générées n’est pas au niveau des réalisations que l’on peut obtenir avec Dall-E, Midjourney ou Stable Diffusion.
Prix
Un peu élevés selon moi pour un outil un peu en retrait en termes de qualité des générations par rapport aux trois mastodontes.
Pour l’utiliser à moindres frais :
- Allez sur le site de NightCafé.
- Créez un compte.
- Allez tous les jours sur le site pour recevoir des crédits gratuitement (un émail devrait vous le rappeler).
- Utilisez vos crédits gratuits.
5. Craiyon (ex Dall-e mini)
Le plus simple et le plus rapide pour faire ses premières images (Gratuit)
Anciennement Dall-E mini, Craiyon est une application d’intelligence artificielle open Source Text-to_image. Contrairement à ce que le nom peut vous laisser penser, il n’y a pas de rapport entre Dall-e et Dall-e Mini.
En fait, les personnes derrière ce projet (Boris Dayma et Pedro Cuenca) voulaient garder la vocation Open Source qui devait être celle de OpenAI à l’origine ;
OpenAI avait le premier modèle impressionnant pour générer des images avec DALL-E. DALL-E mini est une tentative de reproduire ces résultats avec un modèle Open-Source.
Ne vous attendez pas à obtenir les mêmes niveaux de qualité, de paramètres et de qualité de rendus que possèdent les meilleures IA texte en image citées plus haut.
Avec Craiyon, vous tapez votre requête et c’est tout. Pas de modification de ‘steps’, pas de choix de résolution, pas de niveau de respect de la requête. Bref ; pas grand-chose.
Alors quel est l’intérêt ? Même si les options et les rendus sont limités en terme de qualité, il a pour lui pas mal de points positifs :
- D’abord c’est totalement gratuit puisque les serveurs sont payés par la publicité.
- Pas besoin de s’inscrire.
- Pas de blabla : Vous arrivez sur la page d’accueil, vous entrez votre requête et c’est parti.
- Chaque requête vous donne neuf images.
- Les images peuvent être sauvegardées au format initial (256 ex 256 pixels).
- Vous pouvez faire une capture d’écran avec la requête qui est automatiquement agrandie.
- Vous avez accès au forum pour partager et échanger.
Côté qualité des rendus, on est très en deçà des autres IA. La gratuité des serveurs explique probablement la limitation actuelle. Il semble même que le modèle de génération ait été rétrogradé depuis l’annonce d’un accès Premium, qui se fait d’ailleurs toujours attendre.
Vous souhaitez tester tout de suite la génération texte en image en cliquant sur un lien et en mettant votre requête ? Alors appuyez sur le bouton ci-dessous.
Que retenir des IA générateurs de texte en images
Il existe désormais un grand nombre de logiciels d’intelligence artificielle de ce type. Et il ne se passe pas une semaine sans qu’une nouvelle annonce soit faite d’un nouvel outil révolutionnaire.
Toutefois, le devant de la scène est aujourd’hui tenu par trois logiciels qui se détachent des autres. Ils possèdent des caractéristiques, des rendus, des prix d’utilisation et des interfaces assez différentes mais au final les trois proposent une façon complètement nouvelle, originale et à portée de tous de profiter et de créer de l’art ou des images potentiellement utilisables commercialement au grand public et aux petites sociétés.
La révolution texte en images est en marche.