Qwen Image をローカルで動してみる (Stability Matrix + ComfyUI 環境)

本サイトで紹介している商品・サービス等の外部リンクには、アフィリエイト広告が含まれる場合があります。

2025年9月27日

概要

ローカル PC の Stability Matrix でインストールした ComfyUI の環境で Qwen Image を動かしてみたので情報を残しておきます。

NVIDIA GeForce RTX 5060Ti 16GB を利用した際の目安になるかもしれません。

Qwen Image とは

Qwen Image は、Alibaba Cloud が開発してる画像生成に特化したモデルです。多言語のプロンプトに対応していて高画質な画像が生成できるとされています。

公式サイト
https://github.com/QwenLM/Qwen-Image
https://huggingface.co/Qwen/Qwen-Image

ライセンス

Apache License 2.0 が採用されており、商用利用可能ですが、詳細は以下をご参照ください。
https://choosealicense.com/licenses/apache-2.0/

ローカル実行環境の用意

参考情報

ComfyUI Examples の情報を参考にします。

https://comfyanonymous.github.io/ComfyUI_examples/qwen_image
　→ 今回は主にこちら利用します。

https://comfyui-wiki.com/ja/tutorial/advanced/image/qwen/qwen-image
　→ LoRAを使ってより高速に処理できるワークフローなどはこちらにあります。

PC 環境

NVIDIA GeForce RTX 5060Ti 16GBを入れて自作した PC で行います。

参考

RTX 5060Ti 16GB でナイスミドルな自作PC

アプつ

Stability Matrix + ComfyUI の実行環境の用意

ComfyUI は、以前 Stability Matrix で用意したものを使います。準備方法はこの過去記事をご参照ください。

参考

Stable Diffusion の実行環境を用意する (GUI / Stability Matrix, 2024年12月)

アプつ

必要なファイルのダウンロード

Stability Matrix のフォルダに配置するため手動で全部用意します。
利用するモデルは、Comfy Org による再パッケージ版を利用します。

(1) Diffusion モデル、テキストエンコーダ、VAE

https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/tree/main/split_files/diffusion_models
qwen_image_fp8_e4m3fn.safetensors

https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/tree/main/split_files/text_encoders
qwen_2.5_vl_7b_fp8_scaled.safetensors

https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/tree/main/split_files/vae
qwen_image_vae.safetensors

(2) ワークフロー
https://comfyanonymous.github.io/ComfyUI_examples/qwen_image/
Basic WorkFlow の画像を右クリックして、[名前を付けて画像を保存] で保存します。ここでは qwen_image_basic_example.png として保存しました。

ファイルの配置

Stability Matrix を利用する場合、 ComfyUI 個別の models に配置せずに、Stability Matrix の Models フォルダ配下に配置します。
ダウンロードしたテキストエンコーダ、VAE、Diffusion モデル以下に配置します。

(1) Diffution モデル
StabilityMatrxiのインストールフォルダ\Data\Models\TextEncoders\Data\Models\DiffusionModels

(2) テキストエンコーダ
StabilityMatrxiのインストールフォルダ\Data\Models\TextEncoders

(3) VAE
StabilityMatrxiのインストールフォルダ\Data\Models\TextEncoders\Data\Models\VAE

Stability Matrix を C:\StablilityMatrix にインストールしている場合は以下のような形です。

C:\STABILITYMATRIX\DATA\MODELS
├─DiffusionModels
│      qwen_image_fp8_e4m3fn.safetensors
│
├─TextEncoders
│      qwen_2.5_vl_7b_fp8_scaled.safetensors
│
└─VAE
        qwen_image_vae.safetensors

画像の生成

準備

(1) Stability Matrix を起動し、Stability Matrix や ComfyUI を更新します。
(古いバージョンだとうまく動かない可能性があるので最新に更新しておきます。)

Stability Matrix – Settings – アップデート
Stability Matrix – パッケージ – ComfyUI の更新

以下では、
Stability Matrix 2.15.0
ComfyUI v0.3.60
で試しています。

(2) Stability Matrix 経由で ComfyUI を起動し、ブラウザで ComfyUI の WebUI (http://127.0.0.1:8188) を開いておきます。

画像生成

ワークフローが埋め込まれた画像ファイル qwen_image_basic_example.png を ComfyUI の WebUI にドラッグアンドドロップします。
拡散モデルを読み込むノードがqwen_image_fp8_e4m3fn.safetensorsモデルをロードしていることを確認します。
CLIPを読み込むノードがqwen_2.5_vl_7b_fp8_scaled.safetensorsモデルをロードしていることを確認します。
VAEを読み込むノードがqwen_image_vae.safetensorsモデルをロードしていることを確認します。
実行をクリックします。