Qwen-Image-Edit-2511をローカルで動かしてみる (Stability Matrix + ComfyUI)

本サイトで紹介している商品・サービス等の外部リンクには、アフィリエイト広告が含まれる場合があります。

概要

以前 Qwen-Image-Edit-2509 をローカルで動かしてみましたが、改良版の Qwen-Image-Edit-2511 がリリースされているので試してみます。

Qwen-Image-Edit-2511 とは

Qwen-Image-Edit-2511 は、Alibaba の Qwen シリーズに属する画像編集モデルの改良版です。
画像から画像を生成する Img2Image のモデルとなります。
主な機能強化として以下が挙げられています。

  • 画像ドリフトの抑制:編集操作中の安定性を向上
  • キャラクター一貫性の向上:想像的な編集でも、人物のアイデンティティや視覚的特徴をより正確に保持
  • 複数人物の一貫性:複数の人物画像を高い忠実度で統合し、自然なグループショットを生成
  • LoRA 機能の統合:コミュニティで人気の LoRA をベースモデルに直接組み込み
  • 工業デザイン生成の強化:工業製品のバッチデザイン生成や素材置換への対応を改善
  • 幾何学的推論の強化:設計や注釈用の補助的な構築線を直接生成可能

公式サイト
Qwen Image Edit 公式ページ
https://www.qwenimagen.com/qwen-image/edit-2511
GitHub
https://github.com/QwenLM/Qwen-Image
Hugging Face
https://huggingface.co/Qwen/Qwen-Image-Edit-2511

Comfy Org による再パッケージ版
https://huggingface.co/Comfy-Org/Qwen-Image-Edit_ComfyUI

ライセンス

Apache License 2.0 が採用されています。
商用利用可能ですが、詳細は以下をご参照ください。
https://choosealicense.com/licenses/apache-2.0/
https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md

ローカル実行環境の用意

参考情報

Comfy Org の情報を参考にします。

https://docs.comfy.org/tutorials/image/qwen/qwen-image-edit-2511
 → こちらを参考にしますが、ComfyUI の WebUI に統合されているため、簡単に用意できます。

PC 環境

NVIDIA GeForce RTX 5060 Ti 16GB を搭載した自作 PC で行います。

Stability Matrix + ComfyUI の実行環境の用意

ComfyUI は、以前 Stability Matrix で用意したものを使います。準備方法については、過去記事をご参照ください。

準備

Stability Matrix を起動し、Stability Matrix や ComfyUI を更新します。
(古いバージョンだとうまく動かない可能性があるので最新に更新しておきます。)

  • Stability Matrix – Settings – アップデート
  • Stability Matrix – パッケージ – ComfyUI の更新


以下では、
Stability Matrix 2.15.5
ComfyUI v0.8.2
で試しています。

必要なファイルのダウンロード

本稿更新時点で Qwen-Image-Edit-2511 は、ComfyUI に統合されていますので ComfyUI の WebUI 経由でダウンロードするのが簡単です。
(Comfy Org による再パッケージ版のモデルを利用する形になります。)

ComfyUI の Web UI を起動し、左側メニューの [テンプレート] をクリックします。

ComfyUI - テンプレート

検索欄で Qwen Image Edit と入力します。
日本語表示の場合、[Qwen Image Edit 2511 – 素材置き換え] と表示されるので、それをクリックします。

ComfyUI - テンプレート - Qwen Image Edit - Qwen Image Edit 2511 を選択

ワークフローが開いた際に、必要なチェックポイントファイルが不足している場合は、ポップアップが表示されます。
それぞれダウンロードします。

  • qwen_2.5_vl_7b_fp8_scaled.safetensors
  • qwen_image_vae.safetensors
  • qwen_image_edit_2511_bf16.safetensors
  • Qwen-Image-Edit-2511-Lightning-4steps-V1.0-bf16.safetensors
Qwen Image Edit 2511 用のワークフローを開いた際にモデルが見つからない場合

ファイルの配置


ComfyUI の models フォルダには配置せず、Stability Matrix の Models フォルダ配下に配置します。

(1) テキストエンコーダ
qwen_2.5_vl_7b_fp8_scaled.safetensors
 → StabilityMatrix のインストールフォルダ\Data\Models\TextEncoders

(2) VAE
qwen_image_vae.safetensors
 → StabilityMatrix のインストールフォルダ\Data\Models\TextEncoders\Data\Models\VAE

(3) Diffusion モデル
qwen_image_edit_2511_bf16.safetensors
 → StabilityMatrix のインストールフォルダ\Data\Models\TextEncoders\Data\Models\DiffusionModels

(4) Lora
Qwen-Image-Edit-2511-Lightning-4steps-V1.0-bf16.safetensors
 → StabilityMatrix のインストールフォルダ\Data\Models\TextEncoders\Data\Models\Lora

Stability Matrix を C:\StablilityMatrix にインストールしている場合は以下のような形です。

C:\STABILITYMATRIX\DATA\MODELS
├─DiffusionModels
│      qwen_image_edit_2511_bf16.safetensors
├─Lora
│      Qwen-Image-Edit-2511-Lightning-4steps-V1.0-bf16.safetensors
├─TextEncoders
│      qwen_2.5_vl_7b_fp8_scaled.safetensors
└─VAE
        qwen_image_vae.safetensors

画像の生成

今回は、Qwen-Image-Edit-2509 で試した際の結果と比較するために、1 枚の画像をテキストプロンプトで編集する形にワークフローを調整します。

元画像は、Qwen Image で生成していたものを使います。

元画像
  1. ComfyUI のテンプレートから Qwen Image Edit 2511 のワークフローを開きます。
  2. 拡散モデルを読み込むノードがqwen_image_edit_2511_bf16.safetensorsモデルをロードしていることを確認します。
  3. CLIPを読み込むノードがqwen_2.5_vl_7b_fp8_scaled.safetensorsモデルをロードしていることを確認します。
  4. VAEを読み込むノードがqwen_image_vae.safetensorsモデルをロードしていることを確認します。
  5. 一番左の画像を読み込むノードに用意した画像を読み込ませます。(ドラッグアンドドロップ可)。
  6. 真ん中の画像を読み込む ノードを右クリックして [バイパス] を選択します。
  7. TextEncodeQwenImageEditPlus (Plus)ノードに変換を指示するポジティブプロンプトを入力します。
  8. TextEncodeQwenImageEditPlus ノードにネガティブプロンプトを入力します。
  9. 実行をクリックします。

※ 7.と 8. で入力したプロンプトは、Qwen-Image-Edit-2509 で試したものと同じものにしています。

生成した画像は以下となります。
所要時間は、約 280秒でした。

以前 Qwen Image Edit 2509 で試した際と同じプロンプトで生成してみた結果

参考までに、Qwen Image Edit 2509 で生成したのは以下です。

Qwen Image Edit 2509 で生成した画像

別プロンプトで検証 (着せ替え)

プロンプトを変えて、柴犬に白いダウンジャケットを着せるように入力します。
(A Shiba Inu wearing a white down jacket.)

生成されたのは以下です。

柴犬にダウンジャケットを着せてみた結果

ダウンジャケットの素材や質感を細かく指定すれば、さらに柔軟な編集が可能だと感じました。
この品質の画像編集をローカル環境で行えるのは、非常に有用だと思います。

参考となれば幸いです。

▼ 関連