Hérault

Qwen-Image est arrivé dans ComfyUI

Si vous en avez marre des affiches où HELLO WORLD devient H3LL0 W0RLD???, Qwen-Image va vous faire souffler. C’est un modèle de génération d’images open-source, pensé pour rendre du texte net et fidèle directement dans l’image — titres, slogans, panneaux, paragraphes, tout y passe. Il vient de l’équipe Qwen (Alibaba Cloud), et oui, il s’intègre déjà proprement dans ComfyUI.

C’est quoi, exactement ?

Sous le capot, Qwen-Image est un modèle diffusion de 20 milliards de paramètres basé sur une archi MMDiT (Multimodal Diffusion Transformer). Il est publié sous licence Apache-2.0 (donc très permissive) et met l’accent sur deux usages :

  1. génération d’images à partir de texte, et
  2. édition (remplacer, ajouter, corriger des éléments) — le tout avec une priorité donnée au rendu du texte (même multilignes et paragraphes).

Ce qui le distingue

  • Texte lisible (vraiment) : Qwen-Image est entraîné pour gérer mises en page, paragraphes, petits labels, et s’en sort particulièrement bien en chinois et très correctement en anglais. Fini les titres pâteux sur vos miniatures.
  • Édition précise : il sait retoucher une zone, clarifier un libellé, ou ajouter un badge sans tout casser.
  • Open-source + écosystème : dépôt GitHub, carte Hugging Face, et déjà des forks/ports (y compris des versions distillées/quantifiées).

Et dans ComfyUI ?

Bonne nouvelle : workflow natif dispo, avec un guide clair. En pratique, on télécharge trois fichiers et on les place aux bons endroits :

  • qwen_image_fp8_e4m3fn.safetensorsmodels/diffusion_models/
  • qwen_2.5_vl_7b_fp8_scaled.safetensorsmodels/text_encoders/
  • qwen_image_vae.safetensorsmodels/vae/
    Ensuite, on charge le workflow “Qwen Image” fourni par ComfyUI et on génère. Simple et efficace.

Quand l’utiliser ?

  • Miniatures YouTube : gros titres, sous-titres courts, stickers “TUTORIAL/COMPARISON”, etc. (générez en 2560×1440 puis réduisez en 1280×720 pour un texte plus net).
  • Affiches & flyers : mise en page typographique, hiérarchie claire.
  • Mockups éditoriaux : pages de livre avec paragraphes justifiés, encadrés, légendes.
  • Interfaces & panneaux : dashboards, signalétique, étiquettes produit, prix.
    Tout ce qui exige du texte lisible à l’intérieur de l’image est un bon candidat.

Limites (à connaître)

  • Le micro-texte (graduations minuscules, numéros minuscules < ~8–10 pt) reste un défi pour tous les modèles diffusion — Qwen-Image inclus.
  • Les schémas ultra-techniques (ex. cockpit certifiable) peuvent “inventer” des détails : parfait pour une vibe visuelle, pas pour un manuel d’avion.
  • Comme toujours : plus la résolution d’origine est haute, mieux le texte survivra au downscale.

Quelques astuces qui font la différence

  • Écrivez le texte exact dans le prompt (section “EXACT TEXT: …”), casse et ponctuation comprises. Qwen-Image respecte bien ces contraintes.
  • Sur-dimensionnez (ex. 2560×1440 ou 4K) puis réduisez à la taille finale : le rendu typographique gagne en netteté.
  • Moins de mots, plus gros : privilégiez le contraste (clair sur sombre ou l’inverse) et laissez une marge de sécurité autour du texte.
  • Pour l’édition, masquez/peignez la zone concernée et gardez un prompt court, ciblé.

Mini-prompts prêts à l’emploi

  • Thumbnail : “YouTube thumbnail, 16:9, dark minimal design. EXACT TEXT: ‘Qwen-Image in ComfyUI’ (headline), ‘Text-perfect images’ (subline), badge ‘TUTORIAL’. Keep bottom-right empty. High contrast, crisp sans-serif.”
  • Page de livre : “Single book page, serif typography, justified paragraphs. EXACT TEXT: ‘Chapter 4 — Patterns of Control’ + two full paragraphs (verbatim) + pull-quote ‘Constraints shape creativity.’ Page number ‘84’.”
  • Étiquette produit : “Front label for a glass jar. EXACT TEXT: ‘Mountain Honey’, ‘Wildflower’, ‘250 g’, tiny line ‘Packed in the EU, batch #A913’. Include a simple barcode. Minimal, high contrast.”

D’où vient Qwen-Image ?

De la famille Qwen (Alibaba Cloud), connue pour ses LLM et VLM (Qwen2/2.5/3). Qwen-Image étend l’écosystème côté génération d’images, avec une licence Apache-2.0 et une distrib’ officielle sur Hugging Face / GitHub.


En bref : si votre image doit contenir du texte propre (thumbnails, couvertures, maquettes éditoriales), Qwen-Image est actuellement l’une des options open-source les plus convaincantes — et l’intégration ComfyUI rend la prise en main express.