Stability.ai annonce le lancement de Stable Diffusion : Une IA text-to-image Open Source

Stable Diffusion est l’un des trois meilleurs générateurs de texte en image disponible actuellement

Le 22 août 2022, la société anglaise Stability ai annonce la disponibilité publique de son intelligence artificielle « Stable Diffusion » (SD) ; Une puissante IA text-to-image.

Comme ses concurrents les plus connus, elle est capable de produire différentes images à partir de n’importe quelle commande de texte rédigé de façon classique et même à partir d’une autre image.

Non seulement Stable Diffusion se positionne un compétiteur direct de DALL-E 2 ou encore de Midjourney, mais en plus il le fait par le biais d’une application Open Source que l’on peut même faire tourner sur son propre ordinateur. Voyons tout cela de plus près.

Points essentiels (La version courte)

  • Stable Diffusion est une IA text-to-image créée par Stability ai et disponible en Open Source depuis le 22 août 2022.
  • Il est un très sérieux concurrent à DALL-E 2 et Midjourney.
  • On peut faire tourner Stable Diffusion localement.
  • Il est gratuit si vous le faites tourner sur votre machine et sur certaines plateformes.
  • La communauté augmente à une vitesse impressionnante et les utilisateurs sont enthousiastes.

Stable Diffusion : une IA text to image Open Source

Stable diffusion de Stability ai est le fruit d’une collaboration étroite entre la firme londonienne, EleutherAI et Laion avec sa base de données LAION-Aesthetics, afin de produire un modèle d’apprentissage automatique destiné à produire des images à partir de requêtes textuelles.

La flexibilité de cet outil le rend utile dans de nombreux domaines et applications telles que création artistique, concept artistique, chartes graphiques, brouillon, croquis, etc.

L’IA permet également la transformation d’images par ajout d’un style ou d’une contrainte spécifique fournies par l’utilisateur sous forme de texte. Voici un exemple ci-dessous qui reprend un tableau pour le décliner selon différents styles.

Cliquez pour agrandir

Mais l’aspect révolutionnaire est que, contrairement à ses principaux concurrents comme DALL-E 2 et Midjourney, Stable Diffusion a publié son code source. Ce qui implique que tout le monde peut le consulter, voir le modifier sur sa propre machine. Avec Stable Diffusion on peut aller voir ce qu’il y a sous le capot, et si on est assez compétent, faire ses propres réglages.

Cela veut également dire que vous pouvez faire ce que vous voulez une fois que l’application fonctionne en local sur votre machine. Et même si vous ne possédez pas les compétences pour modifier le code pour remplir tel ou tel fonction ou modifier telle ou telle chose, il est probable que des utilisateurs plus calés que nous partagerons leurs modifications avec la communauté.

Stable Diffusion en images

On parle ici d’un IA qui crée des images. Donc je vais arrêter de cracher du texte et vous montrer quelques images que stable diffusion peut créer. C’est à mon avis plus parlant pour vous faire une idée.

Pour la jeune fille rousse, j’avais demandé une couronne de fleurs. Ce n’est pas vraiment ça, mais le résultat est quand même pas mal…

Comment utiliser Stable Diffusion en ligne ?

On peut aujourd’hui accéder à SD soit en passant par des serveurs ; c’est la solution simple pour l’instant, soit en installant le programme sur votre machine. Beaucoup plus compliqué et restrictif. Jetons un coup d’œil rapide à chacune des façons d’utiliser l’IA

Dreamstudio ; la façon la plus simple et la plus conviviale d’utiliser Stable Diffusion

C’est la solution la plus simple. L’interface Dreamstudio est utilisable par le commun des mortels sans installation compliquée préalable. Tout se passe sur leurs serveurs qui sont super rapides. Il vous suffit de vous inscrire pour avoir accès à l’interface et vous aurez droit à un petit pécule de crédits qui doit tourner aux alentours de 150.

Selon les réglages, vous consommer plus ou moins un crédit par image. Vous pouvez également en acheter et le tarif est, au moment auquel cet article est rédigé, de 1 000 crédits pour 10£ (environ 11,50 €).

Voici à quoi ressemble l’interface principale :

Fenêtre d’interface de DreamStudio

Petite description de l’interface rapide :

  1. Coût en crédit avec les réglages actuels
  2. Ligne de commande (Prompt)
  3. Réglages et paramètres (Taille, niveau de diffusion, niveau de fidélité à la requête, version, nombre d’images).
  4. Importation d’image – Si vous souhaitez partir d’une image précédente ou d’une base graphique.
  5. Menu principal de Dreamstudio

Les informations de votre compte sont accessibles par l’icône en haut à droite. Dans la section « Membership » vous verrez votre quota de crédits et vous aurez la possibilité d’en acheter d’autres.

Voilà les tarifs proposés au moment ou cet article a été réalisé ;

Huggingface : La version en ligne pour utiliser Stable Diffusion gratuitement

La seconde option se fait via le site de Huggingface, une Start-up qui permet aux entreprises d’avoir accès au « machine learning ».

Voici le lien pour se rendre sur la page consacrée à Stable Diffusion sur Hugging Face.

Voici à quoi ressemble l’interface une fois que la requête que j’ai demandée a été traitée.

Rien de bien compliqué comme vous pouvez le voir. Une ligne de texte pour la requête et quelques réglages avancés vers le bas si vous le souhaitez.

Puisque j’y suis, je vous mets les trois images que j’ai gardées en testant l’interface (j’adore…).

C’est beaucoup plus lent que sur DreamStudio mais ça marche aussi.

Les serveurs sont souvent surchargés et donc inutilisables. Et s’ils le sont, le temps de génération est long. Comptez de 3 à 10 minutes selon la requête et la disponibilité des serveurs. Mais bon ; C’est gratuit et vous n’utilisez pas votre machine.

Si vous voulez en savoir plus sur Hugging Face, je vous invite chaudement à regarder l’interview de son CEO Clément Delangue.

Visiblement il y a une limitation d’utilisation mais elle ne m’a pas sauté aux yeux et j’ai pu réaliser quelques créations sympas.

Comment utiliser Stable Diffusion sur son PC

Depuis la sortie officielle, libre et gratuite, de nombreuses façons d’accéder à Stable Diffusion sont apparues. Mais quelles sont les variantes les plus efficaces pour profiter de l’algorithme ?

Si Dreamstudio, la version développée par les gens qui ont créé SD, est de loin la plus conviviale avec sa rapidité de calcul et son interface claire, elle reste une solution payante, même si les crédits offerts pour tester l’IA gratuitement sont généreux et les tarifs très compétitifs comparés à ceux de DALL-E 2 et Midjourney. N’empêche que c’est payant…

Et si vous pouviez utiliser l’IA en utilisant la puissance de « votre » machine ? Alléchant comme idée, n’est pas ?

Certains ont donc cherché des solutions et mis au point des outils. Un grand nombre de ces outils demandent une installation souvent extrêmement compliquée pour le commun des utilisateurs.

Ils réclament de charger de nombreux logiciels et interpréteurs sur différentes plateformes. Au final on se retrouve souvent avec quelque chose de peu pratique voir d’inutilisable pour beaucoup de gens.

Voici celle qui nous semble la plus intéressante pour l’instant.

Stable Diffusion sur son PC : la solution GRisk GUI (Carte Nvidia)

Au moment où nous écrivons cet article, c’est la façon la plus simple de faire fonctionner Stable Diffusion sur son PC (pas de Mac pour l’instant). Cependant, il y a une limitation ; vous devez avoir un GPU (une carte graphique) Nvidia qui soit compatible CUDA. Grosso modo cela regroupe toutes les cartes produites par la marque après 2008.

Si vous êtes sur de l’AMD, cette solution ne fonctionnera pas.

Étapes pour utiliser Stable Diffusion sur PC avec l’interface Grisk :

  1. Rendez-vous sur la page de Stable Diffusion GRisk GUI 0.1.
  2. Cliquez sur Download et décompressez le fichier « rar » obtenu (7zip fera l’affaire).
  3. Une fois fait, ouvrez le dossier et cherchez l’exécutable « stable diffusion Grisk GUI.exe« .Vous y êtes. Ça devrait ressembler à ça :

Vous pouvez générer des images autant que vous en voulez puisque maintenant, le temps machine, c’est celui de votre carte graphique.

Notre combine préférée pour faire tourner gratuitement Stable Diffusion sans Nvidia.

Si comme moi vous n’avez pas le GPU nécessaire pour utiliser la méthode précédente (j’ai une AMD Radeon), il vous reste la solution vers laquelle je me suis tournée. Au début, un peu par défaut et puis avec un peu de pratique, par choix.

Pourquoi ? Parce que même si elle n’est pas très conviviale en termes d’interface, elle est excellente en ce qui concerne ses réglages et possibilités.

Il s’agit de « Google Collab« . Essentiellement « Google Collab » vous permettra d’exécuter du code par le biais de carnets de notes en ligne complètement gratuitement et de sauvegarder le résultat sur votre Google Drive. Donc pour commencer, il vous faut un compte Google.

Une fois ce prérequis réglé, suivez les étapes suivantes ;

  1. Rendez-vous à cette adresse Google Colab.
  2. Allez à la section « Diffusers Method« . Vous devriez y être directement avec le lien que j’ai mis.
  3. Un peu en dessous vous verrez une section « Render Image » avec un prompt prérempli :
    « A young woman wearing a hat, blablabla…« 
  4. Effacez là et entrez la requête de votre choix (en anglais)
  5. Appuyez sur le bouton lecture à gauche de « Render Image »
  6. Attendez le résultat
  7. Et voila…

Si vous êtes perdus, l’endroit ou tout se passe ressemble à ça :

Quelques précisions ;

En dessous du paragraphe « Render Image » vous trouverez différents paragraphes qui correspondent à différents réglages

  • Init Image Setup (IMG2IMG): Pour faire do « image-to-image » en indiquant l’URL de l’image de départ ou une image locale
  • INPAINT Setup : Pour faire de l’Inpainting avec un masque
  • GENERAL SETUP : Le plus important ; Nombre d’itérations (images), d’étapes (step), la taille et bien d’autres encore
  • POST PROCESSING : Pour agrandir, améliorer les visages et affiner les résultats

Note : L’outil va vous demander l’accès à votre Google Drive pour sauvegarder les résultats. Vous devez lui accorder ou vous obtiendrez une erreur (en tout cas c’est ce que j’ai eu). La première génération est un peu longue, le temps qu’il charge tout ce dont il a besoin, mais après c’est plutôt rapide si vous ne lui demandez pas des tailles au-delà de 512×512 et un nombre d’étapes trop important.

Si vous êtes observateur, vous avez remarqué que le Google Colab est intitulé « NSFW Disabled : NOP’s Stable Diffusion Colab v0.42 (1.4 Weights) ». Donc pas de censure sur cette version.

Les autres méthodes pour utiliser Stable Diffusion.

Il y en a de plus en plus au fur et à mesure des jours qui passent.

Voici une liste des systèmes de support pour Stable Diffusion disponible sur Reddit et (pour l’instant) relativement à jour.

Licence des images

La question se pose de savoir ce que l’on a le droit de faire avec les images obtenues. Peut-on les utiliser ? Les vendre ? En faire des Tee-shirts ? Peut-on faire n’importe quelle image ?

Je vous traduis ici les informations relatives aux licences des images que vous allez générer. Elles sont indiquées sur le site de Humming Face :

LICENSE
Le modèle est sous licence CreativeML Open RAIL-M. Les auteurs ne revendiquent aucun droit sur les résultats que vous générez, vous êtes libre de les utiliser et êtes responsable de leur utilisation qui ne doit pas aller à l’encontre des dispositions de cette licence. La licence vous interdit de partager tout contenu qui violerait des lois, causerait un préjudice à une personne, diffuserait des informations personnelles susceptibles de nuire, diffuserait des informations erronées et ciblerait des groupes vulnérables. Pour la liste complète des restrictions, veuillez lire la licence.

huggingface.co – stabilityai – stable diffusion

Pour en savoir plus, voici un lien vers le texte complet de la licence en anglais.

Avantages de Stable Diffusion

La version courte ;

  • C’est Open Source, donc l’accès au programme lui-même est gratuit.
  • On peut modifier ce que l’on veut si on sait comment faire (tout le monde n’est pas programmeur en Intelligence Artificielle).
  • Les résultats sont meilleurs de jour en jour.
  • La taille de la communauté explose et elle est très dynamique.
  • La simplicité d’utilisation d’une IA Text-to-image est enfantine.
  • Stable Diffusion est très loin d’être ridicule par rapport aux poids lourds que sont Midjourney et DALL-E 2.

Stable Diffusion, Midjourney ou Dall-E 2 : Quel est le meilleur ?

Je sais que je vais en énerver certains, mais il n’y a pas une IA text-to-image meilleure pour tout parmi les trois.

Dall-E 2 est probablement la plus adaptée à vos besoins si vous êtes à la recherche de photo réalisme et d’exactitude dans la réalisation de votre requête.

MJ est probablement la plus douée pour toutes les réalisations artistiques, les applications de styles spécifiques et elle possède une énorme communauté.

Stable diffusion est le dernier venu mais il possède d’importants avantages par rapport à ses concurrents :

  •  il est gratuit
  •  il est open source
  •  il est facile à utiliser
  •  on peut l’utiliser en local sous certaines conditions
  •  le rendu, bien que parfois inférieur à celui de ses concurrents sur des requêtes identiques pour l’instant, s’améliore de jour en jour.

Notre avis sur Stable Diffusion

Cette IA text-to-image est l’une des moins chère du marché si vous acceptez de payer pour un super confort d’utilisation comparable à ceux de Dall-E et MJ.

Mais c’est avec sa possibilité de fonctionner en local, avec l’une des méthodes que nous vous proposons ici, que l’on en profite à fond puisque seul les capacités de votre machine vous limitent.

Difficile de ne pas le lancer dès qu’une idée vous vient en tête en sachant que tout cela sera gratuit.

SD peut être utilisé pour créer des images à partir d’invites textuelles, pour générer des images à partir d’autres images, il peut fonctionner en local, il est Open Source, on peut faire de l’Inpainting, il est potentiellement gratuit… N’en jetez plus !

Et ce n’est qu’un début. Le Outpainting et plein d’autres choses bien alléchantes pointent déjà le bout de leur nez.

Personnellement j’adore.