Qwen-Image-2512 をローカルで動かす  (GeForce RTX 5060Ti 16GB)

本サイトで紹介している商品・サービス等の外部リンクには、アフィリエイト広告が含まれる場合があります。

概要

以前、Qwen-Image をローカルで動かしてみましたが、改良版である Qwen-Image-Edit-2511 がリリースされたとのことで、今回はさらに新しい Qwen-Image-2512 をローカルで試してみます。

Qwen-Image-2512

Qwen-Image-2512 は、Alibaba(アリババ)グループの Qwen(通義)チーム によって開発された 最新の AI 画像生成モデル です。
2025 年 12 月にリリースされ、オープンソースとして公開されています。

Qwen Image 2512 の主な特徴

  • 人物表現のリアリティ向上
    Qwen-Image-2512 は「AI 生成らしさ」を大幅に軽減し、特に人物を中心とした画像のリアリティを大きく向上させています。
  • 自然ディテールの精細化
    風景や動物の毛並みなど、自然物の描写がより細かく、精緻に表現されます。
  • テキスト描画性能の改善
    テキスト要素の正確性と品質が向上し、レイアウトの整合性や、テキストと画像を組み合わせたマルチモーダル表現の再現性が高まっています。

公式サイト

https://github.com/QwenLM/Qwen-Image
https://huggingface.co/Qwen/Qwen-Image-2512

ライセンス

Apache 2.0 ライセンスで公開されており、商用利用可能です。

https://choosealicense.com/licenses/apache-2.0
https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md

ローカル実行環境の用意

PC 環境

NVIDIA GeForce RTX 5060 Ti 16GB を搭載した自作 PC で行います。

Stability Matrix + ComfyUI の実行環境の用意

ComfyUI は、以前 Stability Matrix で用意したものを使います。準備方法については、過去記事をご参照ください。

準備

古いバージョンだと正常に動作しない可能性があるため、事前に更新しておきます。

  • Stability Matrix – Settings – アップデート
  • Stability Matrix – パッケージ – ComfyUI の更新


以下では、
Stability Matrix 2.15.5
ComfyUI v0.10.0

で試しています。

必要なファイルのダウンロード

本稿更新時点で Qwen-Image-2512 は、ComfyUI に統合済みのため、ComfyUI の WebUI 経由でダウンロードするのが簡単です。
(Comfy Org による再パッケージ版のモデルを利用する形になります。)

ComfyUI の Web UI を起動し、左側メニューの [テンプレート] をクリックします。

ComfyUI - テンプレート

検索欄に Qwen Imageと入力します。
[Qwen Image 2512] が表示されるので、それをクリックします。

qwen image で検索 - Qwen Image 2512 を選択

ワークフローが開いた際に、必要なチェックポイントファイルが不足している場合は、ポップアップが表示されます。
それぞれダウンロードします。

  • qwen_image_vae.safetensors
  • qwen_2.5_vl_7b_fp8_scaled.safetensors
  • qwen_image_2512_fp8_e4m3fn.safetensors
  • Qwen-Image-Lightning-4steps-V1.0.safetensors
モデルが不足している場合はダウンロードする

ファイルの配置


ComfyUI の models フォルダには配置せず、Stability Matrix の Models フォルダ配下に配置します。

(1) テキストエンコーダ
qwen_2.5_vl_7b_fp8_scaled.safetensors
 → StabilityMatrix のインストールフォルダ\Data\Models\TextEncoders

(2) VAE
qwen_image_vae.safetensors
 → StabilityMatrix のインストールフォルダ\Data\Models\TextEncoders\Data\Models\VAE

(3) Diffusion モデル
qwen_image_2512_fp8_e4m3fn.safetensors
 → StabilityMatrix のインストールフォルダ\Data\Models\TextEncoders\Data\Models\DiffusionModels

(4) Lora
Qwen-Image-Lightning-4steps-V1.0.safetensors
 → StabilityMatrix のインストールフォルダ\Data\Models\TextEncoders\Data\Models\Lora

Stability Matrix を C:\StablilityMatrix にインストールしている場合は以下のような形です。

C:\STABILITYMATRIX\DATA\MODELS
├─DiffusionModels
│      qwen_image_2512_fp8_e4m3fn.safetensors
├─Lora
│      Qwen-Image-Lightning-4steps-V1.0.safetensors
├─TextEncoders
│      qwen_2.5_vl_7b_fp8_scaled.safetensors
└─VAE
        qwen_image_vae.safetensors

画像生成

Standard(50-step generation)

まずはデフォルトのまま画像を生成してみます。
デフォルトは Standard 50-step generation での精製となります。

ComfyUI の Qwen-Image-2512 用のワークフロー

だいたい 6分半くらいで生成できました。

Accelerated 4-step generation using Lightning LoRA

次に、Qwen-Image 2512 4steps のノードを有効にして生成してみます。

変更方法

  1. 右上の2つのノードを右クリック – バイパスを選択する。紫色に変わる。
  2. 右下の2つノードを右クリック – バイパスを選択する。有効化されたことを確認する。
Accelerated 4-step generation using Lightning LoRA のノードを有効化

30秒 で生成できました。

以前のサンプルと比較

次に Qwen-Image のサンプルと同じプロンプトで生成してみます。

Qwen Image で試したサンプル
cute anime girl with massive fennec ears and a big fluffy fox tail with long wavy blonde hair between eyes and large blue eyes blonde colored eyelashes chubby wearing oversized clothes summer uniform long blue maxi skirt muddy clothes happy sitting on the side of the road in a run down dark gritty cyberpunk city with neon and a crumbling skyscraper in the rain at night while dipping her feet in a river of water she is holding a sign that says "ComfyUI is the best" written in cursive

▼ Standard 50-step generation

▼ Accelerated 4-step generation using Lightning LoRA

若干テイストの違いはありますが、いずれもプロンプト通りの画像が生成されました。

参考となれば幸いです。

▼ 関連