概要
以前、Qwen-Image をローカルで動かしてみましたが、改良版である Qwen-Image-Edit-2511 がリリースされたとのことで、今回はさらに新しい Qwen-Image-2512 をローカルで試してみます。
Qwen-Image-2512
Qwen-Image-2512 は、Alibaba(アリババ)グループの Qwen(通義)チーム によって開発された 最新の AI 画像生成モデル です。
2025 年 12 月にリリースされ、オープンソースとして公開されています。
Qwen Image 2512 の主な特徴
- 人物表現のリアリティ向上
Qwen-Image-2512 は「AI 生成らしさ」を大幅に軽減し、特に人物を中心とした画像のリアリティを大きく向上させています。 - 自然ディテールの精細化
風景や動物の毛並みなど、自然物の描写がより細かく、精緻に表現されます。 - テキスト描画性能の改善
テキスト要素の正確性と品質が向上し、レイアウトの整合性や、テキストと画像を組み合わせたマルチモーダル表現の再現性が高まっています。
公式サイト
https://github.com/QwenLM/Qwen-Image
https://huggingface.co/Qwen/Qwen-Image-2512
ライセンス
Apache 2.0 ライセンスで公開されており、商用利用可能です。
https://choosealicense.com/licenses/apache-2.0
https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md
ローカル実行環境の用意
PC 環境
NVIDIA GeForce RTX 5060 Ti 16GB を搭載した自作 PC で行います。
Stability Matrix + ComfyUI の実行環境の用意
ComfyUI は、以前 Stability Matrix で用意したものを使います。準備方法については、過去記事をご参照ください。
準備
古いバージョンだと正常に動作しない可能性があるため、事前に更新しておきます。
- Stability Matrix – Settings – アップデート
- Stability Matrix – パッケージ – ComfyUI の更新
以下では、
Stability Matrix 2.15.5
ComfyUI v0.10.0
で試しています。
必要なファイルのダウンロード
本稿更新時点で Qwen-Image-2512 は、ComfyUI に統合済みのため、ComfyUI の WebUI 経由でダウンロードするのが簡単です。
(Comfy Org による再パッケージ版のモデルを利用する形になります。)
ComfyUI の Web UI を起動し、左側メニューの [テンプレート] をクリックします。

検索欄に Qwen Imageと入力します。
[Qwen Image 2512] が表示されるので、それをクリックします。

ワークフローが開いた際に、必要なチェックポイントファイルが不足している場合は、ポップアップが表示されます。
それぞれダウンロードします。
- qwen_image_vae.safetensors
- qwen_2.5_vl_7b_fp8_scaled.safetensors
- qwen_image_2512_fp8_e4m3fn.safetensors
- Qwen-Image-Lightning-4steps-V1.0.safetensors

ファイルの配置
ComfyUI の models フォルダには配置せず、Stability Matrix の Models フォルダ配下に配置します。
(1) テキストエンコーダ
qwen_2.5_vl_7b_fp8_scaled.safetensors
→ StabilityMatrix のインストールフォルダ\Data\Models\TextEncoders
(2) VAE
qwen_image_vae.safetensors
→ StabilityMatrix のインストールフォルダ\Data\Models\TextEncoders\Data\Models\VAE
(3) Diffusion モデル
qwen_image_2512_fp8_e4m3fn.safetensors
→ StabilityMatrix のインストールフォルダ\Data\Models\TextEncoders\Data\Models\DiffusionModels
(4) Lora
Qwen-Image-Lightning-4steps-V1.0.safetensors
→ StabilityMatrix のインストールフォルダ\Data\Models\TextEncoders\Data\Models\Lora
Stability Matrix を C:\StablilityMatrix にインストールしている場合は以下のような形です。
C:\STABILITYMATRIX\DATA\MODELS
├─DiffusionModels
│ qwen_image_2512_fp8_e4m3fn.safetensors
├─Lora
│ Qwen-Image-Lightning-4steps-V1.0.safetensors
├─TextEncoders
│ qwen_2.5_vl_7b_fp8_scaled.safetensors
└─VAE
qwen_image_vae.safetensors
画像生成
Standard(50-step generation)
まずはデフォルトのまま画像を生成してみます。
デフォルトは Standard 50-step generation での精製となります。

だいたい 6分半くらいで生成できました。


Accelerated 4-step generation using Lightning LoRA
次に、Qwen-Image 2512 4steps のノードを有効にして生成してみます。
変更方法
- 右上の2つのノードを右クリック – バイパスを選択する。紫色に変わる。
- 右下の2つノードを右クリック – バイパスを選択する。有効化されたことを確認する。

約 30秒 で生成できました。


以前のサンプルと比較
次に Qwen-Image のサンプルと同じプロンプトで生成してみます。

cute anime girl with massive fennec ears and a big fluffy fox tail with long wavy blonde hair between eyes and large blue eyes blonde colored eyelashes chubby wearing oversized clothes summer uniform long blue maxi skirt muddy clothes happy sitting on the side of the road in a run down dark gritty cyberpunk city with neon and a crumbling skyscraper in the rain at night while dipping her feet in a river of water she is holding a sign that says "ComfyUI is the best" written in cursive
▼ Standard 50-step generation


▼ Accelerated 4-step generation using Lightning LoRA


若干テイストの違いはありますが、いずれもプロンプト通りの画像が生成されました。
参考となれば幸いです。
▼ 関連


