Un prompt est une sorte de ligne de commande qui va permettre à Stable Diffusion de réaliser votre image. Le prompt est aussi la description de l’image que l’on souhaite générer. Pour augmenter les chances d’avoir un bon résultat il faut être le moins abstrait possible. Plus vous serez précis et plus l’image générée le sera aussi.
Cependant, le résultat ne sera pas toujours celui que vous espérez même si vous avez écrit votre prompt correctement. Parfois il sera même très difficile de s’approcher de l’image que l’on a en tête si celle-ci est très éloignée des images utilisées pour l’apprentissage de l’IA.
La structure et les termes à utiliser dans un prompt sont différents en fonction des logiciels. Je vais parler ici d’Automatic1111 pour Stable diffusion.
La structure de base
Il est important de bien structurer le prompt pour d’une part que l’IA vous comprenne et que d’autre part vous puissiez facilement vous corriger.
Il faut utiliser des mots clés et être précis et concis. On ne va pas faire de longues phrases décrivant ce que l’on souhaite comme : Je souhaite faire une image avec une girafe trop mignonne allongée sur un lit sur une plage.
Il vaut mieux écrire en anglais d’abord même si l’IA vous avez vu à quand même captée en partie ce que l’on a demandé et la structure à privilégier est celle-ci :
Style + Sujet + Description du sujet + Environnement + Description de l’environnement + Modifiers + Artists (en fonction du model utilisé)
L’IA converti les caractères en Tokens (voir le site https://platform.openai.com/tokenizer )
La limite est fixée à 75 Tokens ce qui représente environ 350 – 380 caractères.
Avec Automatic1111 si on dépasse on peut aller jusqu’à 75+75. Le premier paquets de 75 tokens sera combiné au suivant.
Exemples de prompts
Sujet une girafe
Prompt : A giraffe
Me prompt est trop peu explicite, on a essentiellement des images de types photos « classiques » de girafes dans leur environnement naturel.
On va préciser le style. On va dire qu’il s’agit d’une peinture.
Prompt : A paint of a giraffe
On a bien changé le style, ce ne sont plus des photos c’est bien de la peinture.
Nous allons être encore plus précis en indiquant le style de peinture par exemple aquarelle (watercolor)
Prompt : a watercolor of a giraffe
On va maintenant ajouter des détails sur notre sujet et revenir avec un style photographique.
Il est utile de bien séparer les sections avec des virgules ou des points.
Prompt : Photography, standing cute tiny giraffe
On va s’occuper de l’environnement
On va situer l’environnement sur une plage.
Prompt : Photography, Standing cute tiny giraffe, in a beach background
On peut préciser donner des détails à l’environnement.
Prompt : Photography, Standing cute tiny giraffe, environmment a beach, cloudy day, surrounded by cactus tree
On va ajouter des modifiers
Exemple de modifiers :
HD,hightly detailled,intricate, professionnal, 8K, 4K, shot on film, 35mm lens, unsplash photo…
Prompt : Photography, Standing cute tiny giraffe, environmment a beach, cloudy day, surrounded by cactus trees, HD, 8K, unsplash photo
A un un effet de profondeur de champ !
Je vais ajouter un nom d’artiste à la fin du prompt. Par exemple Botero. Le simple fait d’ajouter ce détail, cela va donner un peu le style du peintre et sculpteur Botero à mon image.
Les prompts négatifs
Les prompts négatifs permettent de préciser ce que l’on ne souhaite pas voir dans les images. Par exemple des malformations, des monstruosités, des sujets hors cadre…
Voici une liste de prompts négatifs glanée sur le net :
b&w, bad anatomy,bad art, bad proportions, blurry, body out of frame, canvas frame, cartoon, cloned face, close up, cross-eye, deformed, disfigured, duplicate, extra arms, extra fingers, extra legs, extra limbs, fused fingers, gross proportions, long neck, malformed limbs, missing arms, missing legs, morbid, mutated, mutated hands, mutation, mutilated, out of frame, Photoshop, poorly drawn face, poorly drawn feet, poorly drawn hands, tiling, too many fingers, video game, weird colors, b&w, bad anatomy, bad art, bad proportions, body out of frame, canvas frame, cartoon, cloned face, close up, cross-eye, deformed, disfigured,duplicate, extra arms, extra fingers, extra legs, extra limbs, fused fingers, gross proportions, long neck, malformed limbs, missing arms, missing legs, morbid, mutated, mutated hands, mutated hands, mutation, mutilated, out of frame, Photoshop, poorly drawn face, poorly drawn feet, poorly drawn hands, tiling, too many fingers, video game, weird colors
Les prompts négatifs fonctionnent bien mieux avec les version 2.X de stable diffusion.
Augmenter ou réduire l’importance d’un terme
Ceci est valable avec Stable Diffusion dans Automatic1111.
Les mots qui sont au début et à la fin du prompt on le plus d’importance.
On peut aussi moduler l’importance avec des parenthèses ou avec des crochets.
() augmente l’importance par un facteur de 1.1
(()) par 1,1 * 1,1 = 1,21
On peut spécifier le poids du mot comme ça
(Mot :1.5) facteur 1.5
Entre crochets ça diminue (on ne peut pas spécifier)
[] diminue de 1.1
(Mot :0.25) diminue l’attention par 4
Si on ajoute \ on peut sortir de ce fonctionnement. Il faut l’écrire comme cela : anime_\(character\)
Je vais par exemple exagérer les cactus et réduire les nuages
Je reprends ce prompt
Photography, Standing cute tiny giraffe, environmment a beach, (cloudy day:0.25), surrounded by (cactus trees :1.2), HD, 8K
Conclusion
Un prompt bien détaillé et précis vous permet d’avoir plus de chance de générer les images que vous avez en tête. Malgré cela il faudra faire de nombreux essais.