
Si vous en avez marre des affiches où HELLO WORLD devient H3LL0 W0RLD???, Qwen-Image va vous faire souffler. C’est un modèle de génération d’images open-source, pensé pour rendre du texte net et fidèle directement dans l’image — titres, slogans, panneaux, paragraphes, tout y passe. Il vient de l’équipe Qwen (Alibaba Cloud), et oui, il s’intègre déjà proprement dans ComfyUI.
C’est quoi, exactement ?
Sous le capot, Qwen-Image est un modèle diffusion de 20 milliards de paramètres basé sur une archi MMDiT (Multimodal Diffusion Transformer). Il est publié sous licence Apache-2.0 (donc très permissive) et met l’accent sur deux usages :
- génération d’images à partir de texte, et
- édition (remplacer, ajouter, corriger des éléments) — le tout avec une priorité donnée au rendu du texte (même multilignes et paragraphes).
Ce qui le distingue
- Texte lisible (vraiment) : Qwen-Image est entraîné pour gérer mises en page, paragraphes, petits labels, et s’en sort particulièrement bien en chinois et très correctement en anglais. Fini les titres pâteux sur vos miniatures.
- Édition précise : il sait retoucher une zone, clarifier un libellé, ou ajouter un badge sans tout casser.
- Open-source + écosystème : dépôt GitHub, carte Hugging Face, et déjà des forks/ports (y compris des versions distillées/quantifiées).
Et dans ComfyUI ?
Bonne nouvelle : workflow natif dispo, avec un guide clair. En pratique, on télécharge trois fichiers et on les place aux bons endroits :
qwen_image_fp8_e4m3fn.safetensors
→models/diffusion_models/
qwen_2.5_vl_7b_fp8_scaled.safetensors
→models/text_encoders/
qwen_image_vae.safetensors
→models/vae/
Ensuite, on charge le workflow “Qwen Image” fourni par ComfyUI et on génère. Simple et efficace.
Quand l’utiliser ?
- Miniatures YouTube : gros titres, sous-titres courts, stickers “TUTORIAL/COMPARISON”, etc. (générez en 2560×1440 puis réduisez en 1280×720 pour un texte plus net).
- Affiches & flyers : mise en page typographique, hiérarchie claire.
- Mockups éditoriaux : pages de livre avec paragraphes justifiés, encadrés, légendes.
- Interfaces & panneaux : dashboards, signalétique, étiquettes produit, prix.
Tout ce qui exige du texte lisible à l’intérieur de l’image est un bon candidat.
Limites (à connaître)
- Le micro-texte (graduations minuscules, numéros minuscules < ~8–10 pt) reste un défi pour tous les modèles diffusion — Qwen-Image inclus.
- Les schémas ultra-techniques (ex. cockpit certifiable) peuvent “inventer” des détails : parfait pour une vibe visuelle, pas pour un manuel d’avion.
- Comme toujours : plus la résolution d’origine est haute, mieux le texte survivra au downscale.
Quelques astuces qui font la différence
- Écrivez le texte exact dans le prompt (section “EXACT TEXT: …”), casse et ponctuation comprises. Qwen-Image respecte bien ces contraintes.
- Sur-dimensionnez (ex. 2560×1440 ou 4K) puis réduisez à la taille finale : le rendu typographique gagne en netteté.
- Moins de mots, plus gros : privilégiez le contraste (clair sur sombre ou l’inverse) et laissez une marge de sécurité autour du texte.
- Pour l’édition, masquez/peignez la zone concernée et gardez un prompt court, ciblé.
Mini-prompts prêts à l’emploi
- Thumbnail : “YouTube thumbnail, 16:9, dark minimal design. EXACT TEXT: ‘Qwen-Image in ComfyUI’ (headline), ‘Text-perfect images’ (subline), badge ‘TUTORIAL’. Keep bottom-right empty. High contrast, crisp sans-serif.”
- Page de livre : “Single book page, serif typography, justified paragraphs. EXACT TEXT: ‘Chapter 4 — Patterns of Control’ + two full paragraphs (verbatim) + pull-quote ‘Constraints shape creativity.’ Page number ‘84’.”
- Étiquette produit : “Front label for a glass jar. EXACT TEXT: ‘Mountain Honey’, ‘Wildflower’, ‘250 g’, tiny line ‘Packed in the EU, batch #A913’. Include a simple barcode. Minimal, high contrast.”
D’où vient Qwen-Image ?
De la famille Qwen (Alibaba Cloud), connue pour ses LLM et VLM (Qwen2/2.5/3). Qwen-Image étend l’écosystème côté génération d’images, avec une licence Apache-2.0 et une distrib’ officielle sur Hugging Face / GitHub.
En bref : si votre image doit contenir du texte propre (thumbnails, couvertures, maquettes éditoriales), Qwen-Image est actuellement l’une des options open-source les plus convaincantes — et l’intégration ComfyUI rend la prise en main express.
