[音声生成AI] Stable Audio Open (Stability Matrix + ComfyUI / 2025年6月)

本サイトで紹介している商品・サービス等の外部リンクには、アフィリエイト広告が含まれる場合があります。

2025年6月8日2025年7月27日

概要

Stable Audio Open は、Stability AI 社が開発したテキストから音声の生成ができるモデルです。
ここでは Stable Audio Open 1.0 を試してみたので情報残しておきます。

Stability Matrix と ComfyUI を使って簡単に環境は用意できました。

NVIDIA GeForce RTX 5060Ti 16GB で Stable Audio Open 1.0 がどこまで動くのかの一助になれば幸いです。

公式サイト

Stable Audio には、Stable Audio 2.0 もありますが、モデルが公開されているのは 2.0 ではなく Stable Audio Open 1.0 のほうです。

https://stability.ai/stable-audio

モデル配布 (Hugging Face)
https://huggingface.co/stabilityai/stable-audio-open-1.0

ライセンスなど

本稿更新時点では、Stable Audio Open は Community のライセンスに含まれています。
https://stability.ai/license

Stable Diffusion 3.5 や Stable Video Diffusion と同様に、Stable Audio Open も “年間売上が100万ドル未満の研究者・開発者・小規模事業者・クリエイター向けは、Community ライセンスでの利用が可能” と解釈します。
(ただし、商用利用する場合はメンバーシップへの登録は必要。)

Community

For researchers, developers, small businesses, and creators with less than $1M in annual revenue.

License includes:

Stable Diffusion 3.5 Suite

SDXL Turbo

Stable Audio Open

Stable Fast 3D

View full list

https://stability.ai/license

利用にあたっては、STABILITY AI COMMUNITY LICENSE AGREEMENT に同意する必要があります。
https://huggingface.co/stabilityai/stable-audio-open-1.0/blob/main/LICENSE.md

Stable Audio Open の環境の用意。 (Stability Matrix + ComfyUI で使う場合)

ここでは Stability Matrix で用意した ComfyUI の環境で Stable Audio Open を利用します。

参考情報

ComfyUI の examples を参考にします。

https://comfyanonymous.github.io/ComfyUI_examples/audio
https://comfyuidoc.com/ja/Examples/audio/

PC 環境

NVIDIA GeForce RTX 5060Ti 16GBを入れて自作した PC で行います。

参考

RTX 5060Ti 16GB でナイスミドルな自作PC

アプリを作りたい

ComfyUI の実行環境の用意

ComfyUI は、以前 Stability Matrix で用意したものを使います。準備方法はこの過去記事をご参照ください。

参考

Stable Diffusion の実行環境を用意する (GUI / Stability Matrix, 2024年12月)

アプリを作りたい

必要なファイルダウンロード

(1) Hugging Face のサイトから、Stable Audio Open のモデルファイルをダウンロードします。

Hugging Face のサイトにアクセスします。

Stable Audio Open をダウンロードするには、Hugging Face へのログインと、利用条件・ライセンス・プライバシーポリシーに同意する必要があります。

ログイン後、License Agreement を確認して、必要事項を入力後、[Agree and access repository] をクリックします。

Hugging Face にログイン後、Stable Audio Open の利用に際してコンタクト情報を入力する

同意すると、上部に [Gated model you have been granted access to this model] と表示されます。

Hugging Face の Stable Audio Open のページ - 利用条件などに同意語

[Files] タブをクリックして、model.safetensors の右側のダウンロードボタンからダウンロードします。
保存する際のファイル名は、stable_audio_open_1.0.safetensors としておきます。(あるいはダウンロード後にリネームしておきます。)

Stable Audio Open の model.safetensors をダウンロード

(2) テキストエンコーダのダウンロード

以下のページから Text-To-Text Transfer Transformer(T5) をダウンロードします。プロンプトとして入力したテキストの変換に利用します。

https://huggingface.co/google-t5/t5-base

[Files] タブをクリックして model.safetensors の右側のダウンロードボタンからダウンロードします。
保存する際のファイル名は、t5_base.safetensors としておきます。(あるいはダウンロード後にリネームしておきます。)

(3) サンプルワークフローを含む音声ファイルのダウンロード

ComfyUI のサンプルページから、ワークフローを含む音声ファイル (stable_audio_example.flac) をダウンロードします。
https://comfyanonymous.github.io/ComfyUI_examples/audio

一番下の [download] を右クリックして、名前を付けてリンク先を保存から保存できます。

ダウンロードしたファイルの配置

Stability Matrix で用意した ComfyUI だと、オリジナルの ComfyUI とは違う場所にそれぞれのファイルを配置します。

(1) stable_audio_open_1.0.safetensors

StabilityMatrixのインストールフォルダ\Data\Models\StableDiffusion
例) C:\StabilityMatrix にインストールした場合
　　C:\StabilityMatrix\Data\Models\StableDiffusion

(2) t5_base.safetensors

StabilityMatrixのインストールフォルダ\Data\Models\TextEncoders
例) C:\StabilityMatrix にインストールした場合
　　C:\StabilityMatrix\Data\Models\TextEncoders

もし Stability Matrix 共通のフォルダではなくて、Stability Matrix でインストールされた ComfyUI のフォルダに配置したい場合は、https://comfyuidoc.com/ja/Examples/audio/ を参考に、StabilityMatrixのインストールフォルダ\Data\Packages\ComfyUI 配下の対象のフォルダに置きます。