Qwen-Image-Edit-2509 をローカルで動かしてみる (Nano Banana 級? / Stability Matrix + ComfyUI)

本サイトで紹介している商品・サービス等の外部リンクには、アフィリエイト広告が含まれる場合があります。

概要

Nano Banana 級にすごいとされている Qwen-Image-Edit-2509 をローカル PC 上で動かしてみました。

NVIDIA GeForce RTX 5060Ti 16GB を利用した際の目安になるかもしれません。

入力画像を編集するのではなく、プロンプトから画像を生成する(text2img) Qwen Image についても、過去に試しているので良ければご参照ください。

Qwen-Image-Edit-2509 とは

Qwen-Image-Edit-2509 は、Alibaba の Qwen シリーズに属する画像編集モデルの最新アップデート版です。
いわゆる img2img の処理を行うモデルになるかと思います。
2025年9月にリリースされ、前バージョン(Qwen-Image-Edit)からの改良点として、マルチ画像入力対応 や 単一画像編集時の一貫性改善などが行われています。

公式サイト
https://github.com/QwenLM/Qwen-Image
https://huggingface.co/Qwen/Qwen-Image-Edit

Comfy Org による再パッケージ版
https://huggingface.co/Comfy-Org/Qwen-Image-Edit_ComfyUI

ライセンス

Apache License 2.0 が採用されており、商用利用可能ですが、詳細は以下をご参照ください。
https://choosealicense.com/licenses/apache-2.0/

ローカル実行環境の用意

参考情報

ComfyUI Examples の情報を参考にします。

https://comfyanonymous.github.io/ComfyUI_examples/qwen_image/#edit-model-v2509
 → こちらを参考にします。

PC 環境

NVIDIA GeForce RTX 5060Ti 16GBを入れて自作した PC で行います。

Stability Matrix + ComfyUI の実行環境の用意

ComfyUI は、以前 Stability Matrix で用意したものを使います。準備方法はこの過去記事をご参照ください。

必要なファイルのダウンロード

Stability Matrix のフォルダに配置するため手動で全部用意します。
利用するモデルは、Comfy Org による再パッケージ版を利用します。

(1) Diffusion モデル、テキストエンコーダ、VAE

https://huggingface.co/Comfy-Org/Qwen-Image-Edit_ComfyUI/tree/main/split_files/diffusion_models
qwen_image_edit_2509_fp8_e4m3fn.safetensors

Qwen-Image-Edit-2509 Diffusion モデル

https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/tree/main/split_files/text_encoders
qwen_2.5_vl_7b_fp8_scaled.safetensors

Qwen-Image_ComfyUI テキストエンコーダ

https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/tree/main/split_files/vae
qwen_image_vae.safetensors

Qwen-Image_ComfyUI VAE

(2) ワークフローと入力用の画像
https://comfyanonymous.github.io/ComfyUI_examples/qwen_image/#edit-model-v2509

Edit Model v2509 の画像、および You can find the input image here からダウンロードできる入力用の画像をダウンロードします。

画像を右クリックして、[名前を付けて画像を保存]
→ qwen_image_edit_2509_basic_example.png

You can find the input image here の here を右クリックして、[名前を付けてリンク先を保存]
→ ennec_girl_sing.png

ComfyUI_examples Qwen Image Edit Model v2509 Workflow と 入力画像

ファイルの配置

Stability Matrix を利用する場合、 ComfyUI 個別の models に配置せずに、Stability Matrix の Models フォルダ配下に配置します。
ダウンロードしたテキストエンコーダ、VAE、Diffusion モデル以下に配置します。

(1) Diffution モデル
StabilityMatrxiのインストールフォルダ\Data\Models\TextEncoders\Data\Models\DiffusionModels

(2) テキストエンコーダ
StabilityMatrxiのインストールフォルダ\Data\Models\TextEncoders

(3) VAE
StabilityMatrxiのインストールフォルダ\Data\Models\TextEncoders\Data\Models\VAE

Stability Matrix を C:\StablilityMatrix にインストールしている場合は以下のような形です。

C:\STABILITYMATRIX\DATA\MODELS
├─DiffusionModels
│      qwen_image_edit_2509_fp8_e4m3fn.safetensors
│
├─TextEncoders
│      qwen_2.5_vl_7b_fp8_scaled.safetensors
│
└─VAE
        qwen_image_vae.safetensors

画像の生成

準備

(1) Stability Matrix を起動し、Stability Matrix や ComfyUI を更新します。
(古いバージョンだとうまく動かない可能性があるので最新に更新しておきます。)

  • Stability Matrix – Settings – アップデート
  • Stability Matrix – パッケージ – ComfyUI の更新


以下では、
Stability Matrix 2.15.0
ComfyUI v0.362

で試しています。

(2) Stability Matrix 経由で ComfyUI を起動し、ブラウザで ComfyUI の WebUI (http://127.0.0.1:8188) を開いておきます。

画像生成 (img2img)

  1. ワークフローが埋め込まれた画像ファイル qwen_image_edit_2509_basic_example.png を ComfyUI の WebUI にドラッグアンドドロップします。
  2. 拡散モデルを読み込むノードがqwen_image_edit_2509_fp8_e4m3fn.safetensorsモデルをロードしていることを確認します。
  3. CLIPを読み込むノードがqwen_2.5_vl_7b_fp8_scaled.safetensorsモデルをロードしていることを確認します。
  4. VAEを読み込むノードがqwen_image_vae.safetensorsモデルをロードしていることを確認します。
  5. 画像を読み込むノードにfennec_girl_sing.png を読み込ませます。(ドラッグアンドドロップ可)。
  6. 実行をクリックします。

大体 4分くらいで、サンプルと同じものが生成できました。

qwen_image_edit_2509_basic_example.png のワークフローを使って手元で生成した画像

同じワークフローを使って、以前 Qwen Image で生成した柴犬の画像の背景とポーズを変えてみます。


Prompt と Negative Prompt の工夫して、リビングでお座りしている形を目指したのが以下です。
これもよい感じです。

以前生成した画像をもとに、新しい画像を生成
Qwen Image Edit 2509 で生成した画像

ローカル環境でこの質で画像の編集ができるのはありがたいですね。

参考となれば幸いです。

▼ 関連