Stable Audio Open (Stability Matrix + ComfyUI / 2025年6月)

本サイトで紹介している商品・サービス等の外部リンクには、アフィリエイト広告が含まれる場合があります。

概要

Stable Audio Open は、Stability AI 社が開発したテキストから 音声の生成ができるモデルです。
ここでは Stable Audio Open 1.0 を試してみたので情報残しておきます。

Stability Matrix と ComfyUI を使って簡単に環境は用意できました。

NVIDIA GeForce RTX 5060Ti 16GB で Stable Audio Open 1.0 がどこまで動くのか の一助になれば幸いです。

公式サイト

Stable Audio には、Stable Audio 2.0 もありますが、モデルが公開されているのは 2.0 ではなく Stable Audio Open 1.0 のほうです。

https://stability.ai/stable-audio

モデル配布 (Hugging Face)
https://huggingface.co/stabilityai/stable-audio-open-1.0

ライセンスなど

本稿更新時点では、Stable Audio Open は Community のライセンスに含まれています。
https://stability.ai/license

Stable Diffusion 3.5 や Stable Video Diffusion と同様に、Stable Audio Open も “年間売上が100万ドル未満の研究者・開発者・小規模事業者・クリエイター向け は、Community ライセンスでの利用が可能” と解釈します。

Community

For researchers, developers, small businesses, and creators with less than $1M in annual revenue.


License includes:

  • Stable Diffusion 3.5 Suite
  • SDXL Turbo
  • Stable Audio Open
  • Stable Fast 3D
  • View full list

https://stability.ai/license

利用にあたっては、STABILITY AI COMMUNITY LICENSE AGREEMENT に同意する必要があります。
https://huggingface.co/stabilityai/stable-audio-open-1.0/blob/main/LICENSE.md

Stable Audio Open の環境の用意。 (Stability Matrix + ComfyUI で使う場合)

ここでは Stability Matrix で用意した ComfyUI の環境で Stable Audio Open を利用します。

参考情報

ComfyUI の examples を参考にします。

https://comfyanonymous.github.io/ComfyUI_examples/audio
https://comfyuidoc.com/ja/Examples/audio/

PC 環境

NVIDIA GeForce RTX 5060Ti 16GBを入れて自作した PC で行います。

ComfyUI の実行環境の用意

ComfyUI は、以前 Stability Matrix で用意したものを使います。準備方法はこの過去記事をご参照ください。

必要なファイルダウンロード

(1) Hugging Face のサイトから、Stable Audio Open のモデルファイルをダウンロードします。

Hugging Face のサイトにアクセスします。

Hugging Face の Stable Audio Open のページ


Stable Audio Open をダウンロードするには、Hugging Face へのログイン と、利用条件・ライセンス・プライバシーポリシーに同意する必要があります。

ログイン後、License Agreement を確認して、必要事項を入力後、[Agree and access repository] をクリックします。

Hugging Face にログイン後、Stable Audio Open の利用に際してコンタクト情報を入力する

同意すると、上部に [Gated model you have been granted access to this model] と表示されます。

Hugging Face の Stable Audio Open のページ - 利用条件などに同意語
[Files] タブをクリックして、model.safetensors の右側のダウンロードボタンからダウンロードします。
保存する際のファイル名は、stable_audio_open_1.0.safetensors としておきます。(あるいはダウンロード後にリネームしておきます。)

Stable Audio Open の model.safetensors をダウンロード

(2) テキストエンコーダのダウンロード

以下のページから Text-To-Text Transfer Transformer(T5) をダウンロードします。プロンプトとして入力したテキストの変換に利用します。

https://huggingface.co/google-t5/t5-base

Hugging Face - google-t5/t5-base のページ
[Files] タブをクリックして model.safetensors の右側のダウンロードボタンからダウンロードします。
保存する際のファイル名は、t5_base.safetensors としておきます。(あるいはダウンロード後にリネームしておきます。)

t5_base のモデルファイルをダウンロード

(3) サンプルワークフローを含む音声ファイルのダウンロード

ComfyUI のサンプルページから、ワークフローを含む音声ファイル (stable_audio_example.flac) をダウンロードします。
https://comfyanonymous.github.io/ComfyUI_examples/audio

一番下の [download] を右クリックして、名前を付けてリンク先を保存 から保存できます。

ComfyUI_examples - Audio Examples

ダウンロードしたファイルの配置

Stability Matrix で用意した ComfyUI だと、オリジナルの ComfyUI とは違う場所にそれぞれのファイルを配置します。

(1) stable_audio_open_1.0.safetensors

  • StabilityMatrixのインストールフォルダ\Data\Models\StableDiffusion
    例) C:\StabilityMatrix にインストールした場合
      C:\StabilityMatrix\Data\Models\StableDiffusion

(2) t5_base.safetensors

  • StabilityMatrixのインストールフォルダ\Data\Models\TextEncoders
    例) C:\StabilityMatrix にインストールした場合
      C:\StabilityMatrix\Data\Models\TextEncoders

もし Stability Matrix 共通のフォルダではなくて、Stability Matrix でインストールされた ComfyUI のフォルダに配置したい場合は、https://comfyuidoc.com/ja/Examples/audio/ を参考に、StabilityMatrixのインストールフォルダ\Data\Packages\ComfyUI 配下の対象のフォルダに置きます。

ComfyUI の起動と、Stable Audio Open による音声の生成

(1) Stability Matrix から Package – ComfyUI を起動します。

Stability Matrix から ComfyUI の起動

(2) ComfyUI 起動後、WebUI にアクセスします。

(3) ダウンロードしていたサンプルワークフローを含む音声ファイル stable_audio_example.flac をドラックアンドドロップします。

stable_audio_example.flac のワークフローを表示

以下が選択されているか確認します。違うファイル名で保存していた場合は適切なものに選択します。
ドロップダウンに表示されない場合は、配置場所が間違っている可能性があります。

  • [CLIP を読み込む] ノード – [clip名] : t5_base.safetensors
  • [チェックポイントを読み込む] ノード – [ckpt名] : stable_audio_open_1.0.safetensors
CLIP と チェックポイントファイルを確認

(4) ワークフローを実行します。
私の環境で、初回実行時は 15秒程度、2回目以降 VRAMにすでに読み込み済みの場合は 9秒程度で生成できました。

生成されたファイルの保存先は StabilityMatrixのインストールフォルダ\Data\Images\Text2Img\audio です。
(C:\StabilityMatrix\Data\Images\Text2Img\audio など)

ワークフロー実行後

生成された音声ファイルは以下です。

参考となれば幸いです。

▼ 関連