Stable Diffusion 3.5 を使ってみる (Stability Matrix + ComfyUI / 2025年1月)

本サイトで紹介している商品・サービス等の外部リンクには、アフィリエイト広告が含まれる場合があります。

概要

Stable Diffusion の最新モデル 3.5 を使ってみたので、情報残しておきます。

以前 Stability Matrix で用意した環境でやってみました。

Stable Diffusion 3.5

公式サイト

Stable Diffusion 3.5 は、Stability AI によって開発された最新の画像生成モデルです。
以下のサイトから情報を確認できます:
https://stability.ai/news/introducing-stable-diffusion-3-5
https://ja.stability.ai/blog/introducing-stable-diffusion-3-5

Stable Diffusion 3.5 の種類

Stable Diffusion 3.5 には、主に以下の3種類のモデルがあります。

  • Stable Diffusion 3.5 Large: 80億のパラメータ、優れた品質、迅速な適合性を持つこの基本モデルは、Stable Diffusionファミリーの中で最も強力です。このモデルは、1メガピクセルの解像度でのプロフェッショナルな使用事例に最適です。
  • Stable Diffusion 3.5 Large Turbo: Stable Diffusion 3.5 Large の蒸留版であり、わずか4ステップで高品質な画像を生成し、優れた即時適合性を実現します。Stable Diffusion 3.5 Largeよりもはるかに高速です。
  • Stable Diffusion 3.5 Medium : 26億のパラメータ、改良されたMMDiT-Xアーキテクチャとトレーニング方法により、カスタマイズのしやすさと画質を両立させ、コンシューマー向けハードウェアで「箱から出してすぐに使える」ように設計されています。0.25~2 メガピクセルの解像度の画像を生成できます。
https://ja.stability.ai/blog/introducing-stable-diffusion-3-5

ライセンス、商用利用に関して

Stability AI Community license の概要

community license の概要は以下の通りです。

  • 非営利目的の場合は無料: 個人および組織は、科学研究を含む非営利目的の場合、無料でモデルを使用することができます。 
  • 商用利用も無料(年間収益100万ドルまで):年間収益が100万ドル未満のスタートアップ企業、中小企業、クリエイターは、商用目的でも無料でこのモデルを使用できます。
  • 成果物の所有権:制限付きライセンスを伴うことなく生成されたメディアの所有権を保持します。
https://ja.stability.ai/blog/introducing-stable-diffusion-3-5

Stable Diffusion 3.5 を使ってみる。(Stability Matrix + ComfyUI で使う)

ここでは、ローカル環境での Stable Diffusion 3.5 の利用に際して ComfyUI を使ってみます。

▼ 参考情報
https://blog.comfy.org/p/sd3-5-comfyui
https://comfyanonymous.github.io/ComfyUI_examples/sd3
https://huggingface.co/collections/stabilityai/stable-diffusion-35-671785cca799084f71fa2838

ComfyUI の実行環境の用意

ComfyUI 自体は、以前 Stability Matrix で用意したものを使います。準備方法はこの過去記事をご参照ください。

Checkpoint ファイル、Clip ファイル、ワークフローサンプルのダウンロード

次に、Stable Diffusion 3.5 の Checkpoint ファイルと Clip ファイルをダウンロードします。
ここでは 上記の通り ミッドレンジのグラフィックスカード (NVIDIA GeForce RTX 3050 (VRAM : 6GB / LowProfile 版)) の環境でのテストを行うので、おもに Medium を利用したいと思いますが、念のため Large や Large Turbo もダウンロードしておきます。

(1) Hugging Face のサイトにアクセスし、右上の [Log in] からログインします。アカウントがない場合は、[Sign Up] からアカウントを作成します。

Stable Diffusion 3.5 Large
https://huggingface.co/stabilityai/stable-diffusion-3.5-large/tree/main
(ログイン後に https://huggingface.co/ に移動した場合は、閉じずに同じブラウザで上記にアクセスします。)

(2) sd3.5_large.safetensors の右のダウンロードボタンをクリックしてダウンロードを行います。

(3) 以下の Checkpoint ファイル、Clip ファイルについても同様にダウンロードします。

Stable Diffusion 3.5 Large Turbo
https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo/tree/main
 → sd3.5_large_turbo.safetensors

Stable Diffusion 3.5 Medium
https://huggingface.co/stabilityai/stable-diffusion-3.5-medium/tree/main
 → sd3.5_medium.safetensors

Clip ファイル(テキストエンコーダー)
https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/tree/main/text_encoders
→ clip_g.safetensors
→ clip_l.safetensors
→ t5xxl_fp16.safetensors
→ t5xxl_fp8_e4m3fn.safetensors
→ t5xxl_fp8_e4m3fn_scaled.safetensors


ファイルサイズが大きいので、VRAM の少ない環境で Medium だけ使う場合は、sd3.5_medium.safetensors, clip_g.safetensors, clip_l.safetensors, t5xxl_fp8_e4m3fn_scaled.safetensors だけをダウンロードする形でも OK です。

(4) ダウンロードした Chekpoint ファイルと Clip ファイルを配置します。

  • Checkpoint ファイル
    • StabilityMatrixのインストールフォルダ\Data\Models\StableDiffusion
      例) C:\StabilityMatrix にインストールした場合
        C:\StabilityMatrix\Data\Models\StableDiffusion
  • Clip ファイル
    • StabilityMatrixのインストールフォルダ\Data\Models\CLIP
      例) C:\StabilityMatrix にインストールした場合
        C:\StabilityMatrix\Data\Models\CLIP

(5) ComfyUI のワークフローのサンプルをダウンロードします。
ComfyUI_examples / SD3 Examples にアクセスして、一番上の画像 (グラスとボトルと狐の画像) を右クリックして、[名前を付けて保存] から png ファイルをダウンロードします。

https://comfyanonymous.github.io/ComfyUI_examples/sd3/
 → sd3.5_text_encoders_example.png

ComfyUI の起動とワークフローの実行

(1)
Stability Matrix から ComfyUI を起動します。

Stability Matrix を起動 – 左側 パッケージ – ComfyUI – Launch

表示された URL (http://127.0.0.1:8188 など) にブラウザでアクセスします。

(2)
Unsaved Workflow の画面が開きますが、そこに 保存していた sd3.5_text_encoders_example.png をドラックアンドドロップします。

(3)
sd3.5_text_encoders_example のワークフローが開きます。

環境に合わせて、CLIP ファイルの3つ目とチェックポイントファイルを変更します。
私の環境だと、以下に変えました。

  • clip_name3 : t5xxl_fp8_e4m3fn_scaled.safetensors
  • ckpt名: sd3.5_medium.safetensors

ドロップダウンに表示されない場合は、ファイルの配置が間違っているか、最新の情報が反映されていない可能性があるので
ファイルの配置を確認してブラウザをリロードなどが必要です。

(4)
実行をクリックして画像を生成します。
実行ボタンが見えない場合は、ブラウザのウィンドウを最大化するか Control キーを押しながらマウスホイールを動かすなどで縮小すると見えてくると思います。

(5)
画像生成が終わると右のほうに表示されます。
Medium だとサイトにあった画像と少し異なりますね。

私の環境で 生成には 67秒くらいかかっています。

(6)
ちなみに、試した環境だと VRAM は 6GB しかないですが PCのメモリ自体は 40GB 積んであるので、時間はかなりかかりますが以下の組み合わせでも生成できました。
(生成時間は Checkpoint ファイルや CLIP ファイルのロード状況によって多少変わります。)

▼ Stable Diffusion 3.5 Large

  • clip_name3 : t5xxl_fp16.safetensors
  • ckpt名: sd3.5_large.safetensors

生成時間230秒くらい

▼ Stable Diffusion 3.5 Turbo

  • clip_name3 : t5xxl_fp16.safetensors
  • ckpt名: sd3.5_large_turbo.safetensors

生成時間 174秒くらい

Clip ファイルが既に埋め込まれているオールインワンチェックポイントファイルも用意されており、そちらを用いて画像生成する方法もありますが、それについてはまた別途記載したいと思います。

参考となれば幸いです。