Qwen‑Image 是由阿里雲 QwenLM 團隊推出的 20 億參數(20B)MMDiT(Multi-Modal Diffusion Transformer)影像生成基礎模型,專注於提升複雜文字渲染與高保真影像編輯能力,特別擅長處理中文及其他表意文字。該模型授權採用 Apache-2.0,可自由使用與修改。
核心功能一覽
-
頂尖文字渲染能力:擁有強大排版處理能力,支援多行文字、段落結構與細緻字形表現,尤其在中文排版上表現優異。
-
精準影像編輯流程:採用多任務訓練架構(T2I、TI2I、I2I),在保留語意與視覺一致性之間取得平衡,特別適合編輯功能。
-
Benchmark 全面領先:在 GenEval、DPG、OneIG-Bench (影像生成)、GEdit、ImgEdit、GSO (影像編輯),與 LongText-Bench、ChineseWord、TextCraft(長文本/中文硬渲染)中表現優異,穩居各項領先。
-
開源部署高靈活性:已支援 Hugging Face、ModelScope、ComfyUI 等平台,並提供本地推理範例程式碼,方便開發者快速上手。
Qwen‑Image 是目前少見能同時兼顧複雜文字排版與影像編輯的開源生成模型,其高精度的中文字渲染技術與多任務能力,使其成為文字與圖像融合創作領域的可靠利器。