Qwen Image をローカルで動してみる (Stability Matrix + ComfyUI 環境)

本サイトで紹介している商品・サービス等の外部リンクには、アフィリエイト広告が含まれる場合があります。

概要

ローカル PC の Stability Matrix でインストールした ComfyUI の環境で Qwen Image を動かしてみたので情報を残しておきます。

NVIDIA GeForce RTX 5060Ti 16GB を利用した際の目安になるかもしれません。

Qwen Image とは

Qwen Image は、Alibaba Cloud が開発してる 画像生成に特化したモデルです。多言語のプロンプトに対応していて高画質な画像が生成できるとされています。

公式サイト
https://github.com/QwenLM/Qwen-Image
https://huggingface.co/Qwen/Qwen-Image

ライセンス

Apache License 2.0 が採用されており、商用利用可能ですが、詳細は以下をご参照ください。
https://choosealicense.com/licenses/apache-2.0/

ローカル実行環境の用意

参考情報

ComfyUI Examples の情報を参考にします。

https://comfyanonymous.github.io/ComfyUI_examples/qwen_image
 → 今回は主にこちら利用します。

https://comfyui-wiki.com/ja/tutorial/advanced/image/qwen/qwen-image
 → LoRAを使ってより高速に処理できるワークフローなどはこちらにあります。

PC 環境

NVIDIA GeForce RTX 5060Ti 16GBを入れて自作した PC で行います。

Stability Matrix + ComfyUI の実行環境の用意

ComfyUI は、以前 Stability Matrix で用意したものを使います。準備方法はこの過去記事をご参照ください。

必要なファイルのダウンロード

Stability Matrix のフォルダに配置するため手動で全部用意します。
利用するモデルは、Comfy Org による再パッケージ版を利用します。

(1) Diffusion モデル、テキストエンコーダ、VAE

https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/tree/main/split_files/diffusion_models
qwen_image_fp8_e4m3fn.safetensors

Qwen-Image_ComfyUI Diffusion モデル

https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/tree/main/split_files/text_encoders
qwen_2.5_vl_7b_fp8_scaled.safetensors

Qwen-Image_ComfyUI テキストエンコーダ

https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/tree/main/split_files/vae
qwen_image_vae.safetensors

Qwen-Image_ComfyUI VAE

(2) ワークフロー
https://comfyanonymous.github.io/ComfyUI_examples/qwen_image/
Basic WorkFlow の画像を右クリックして、[名前を付けて画像を保存] で保存します。ここでは qwen_image_basic_example.png として保存しました。

ComfyUI_examples Qwen Image Basic Workflow

ファイルの配置

Stability Matrix を利用する場合、 ComfyUI 個別の models に配置せずに、Stability Matrix の Models フォルダ配下に配置します。
ダウンロードしたテキストエンコーダ、VAE、Diffusion モデル以下に配置します。

(1) Diffution モデル
StabilityMatrxiのインストールフォルダ\Data\Models\TextEncoders\Data\Models\DiffusionModels

(2) テキストエンコーダ
StabilityMatrxiのインストールフォルダ\Data\Models\TextEncoders

(3) VAE
StabilityMatrxiのインストールフォルダ\Data\Models\TextEncoders\Data\Models\VAE

Stability Matrix を C:\StablilityMatrix にインストールしている場合は以下のような形です。

C:\STABILITYMATRIX\DATA\MODELS
├─DiffusionModels
│      qwen_image_fp8_e4m3fn.safetensors
│
├─TextEncoders
│      qwen_2.5_vl_7b_fp8_scaled.safetensors
│
└─VAE
        qwen_image_vae.safetensors

画像の生成

準備

(1) Stability Matrix を起動し、Stability Matrix や ComfyUI を更新します。
(古いバージョンだとうまく動かない可能性があるので最新に更新しておきます。)

  • Stability Matrix – Settings – アップデート
  • Stability Matrix – パッケージ – ComfyUI の更新


以下では、
Stability Matrix 2.15.0
ComfyUI v0.3.60

で試しています。

(2) Stability Matrix 経由で ComfyUI を起動し、ブラウザで ComfyUI の WebUI (http://127.0.0.1:8188) を開いておきます。

画像生成

  1. ワークフローが埋め込まれた画像ファイル qwen_image_basic_example.png を ComfyUI の WebUI にドラッグアンドドロップします。
  2. 拡散モデルを読み込むノードがqwen_image_fp8_e4m3fn.safetensorsモデルをロードしていることを確認します。
  3. CLIPを読み込むノードがqwen_2.5_vl_7b_fp8_scaled.safetensorsモデルをロードしていることを確認します。
  4. VAEを読み込むノードがqwen_image_vae.safetensorsモデルをロードしていることを確認します。
  5. 実行をクリックします。

大体 3分くらいで、サンプルと同じものが生成できました。

qwen_image_basic_example.png のワークフローを使って手元で生成した画像

同じワークフローを使って、真面目にプロンプトを書くと、いい感じの柴犬の絵も生成できます。

プロンプトを工夫して、柴犬の画像を生成
プロンプトを工夫して Qwen Image で生成した画像

参考となれば幸いです。