概要
画像生成AIでは Stable Diffusion が広く知られていますが、その開発元である Stability AI から音楽・効果音生成AI「Stable Audio 3.0」が公開されています。
ComfyUI から利用できるようになっていたため、今回はローカル環境で試してみました。
Stable Audio 3.0 とは
Stable Audio 3.0 は Stability AI が開発する音楽・効果音生成AIモデルです。
テキストプロンプトから音楽や効果音を生成できるほか、ローカル環境で実行できるモデルも公開されています。
また、用途ごとに複数のモデルが用意されている点も特徴です。
公開されているのは Small-SFX, Small-Music, Medium です。
| モデル | 用途 |
|---|---|
| Small-SFX | 効果音生成 (7秒まで) |
| Small-Music | 短い音楽生成 (120秒まで) |
| Medium | 長時間の音楽生成 (380秒まで) |
| Large | エンタープライズ向け高性能モデル |
公式サイト
https://stability.ai/stable-audio
Hugging Face
https://huggingface.co/collections/stabilityai/stable-audio-3
ライセンス
Stable Audio 3.0 は Stability AI Community License で提供されています。
年間売上100万ドル未満の個人や小規模事業者は Community License の対象となります。年間売上100万ドルを超える企業は Enterprise License が必要です。
ライセンスの詳細は以下を参照してください。
Stability AI License
ローカル実行環境の用意
PC 環境
NVIDIA GeForce RTX 5060 Ti 16GB を搭載した自作 PC を使用します。
Stability Matrix + ComfyUI の実行環境の用意
ComfyUI は、以前 Stability Matrix で用意したものを使います。準備方法については、過去記事をご参照ください。
Stable Audio 3.0 は ComfyUI でサポートされており、ワークフローは ComfyUI に標準で含まれるテンプレートから読み込めます。
https://blog.comfy.org/p/stable-audio-3-day-0-support
また、ComfyOrg による再パッケージ版も公開されています。
https://huggingface.co/Comfy-Org/stable-audio-3
Stability Matrix と ComfyUI のアップデート
古いバージョンだと正常に動作しない可能性があるため、事前に更新しておきます。
- Stability Matrix – Settings – アップデート
- Stability Matrix – パッケージ – ComfyUI の更新
以下では、
Stability Matrix 2.15.8
ComfyUI 0.24.0
で試しています。
必要なモデルファイルのダウンロード
必要なモデルファイルをダウンロードします。
オリジナルの Stable Audio 3.0 のモデルをダウンロードするには、利用規約に同意し、連絡先などを入力する必要があります。
https://huggingface.co/stabilityai/stable-audio-3-medium

今回は ComfyOrg による再パッケージ版の stable_audio_3_medium.safetensors を利用します。
https://huggingface.co/Comfy-Org/stable-audio-3

それぞれ必要なモデルファイルをダウンロードします。
- checkpoints / stable_audio_3_medium.safetensors
https://huggingface.co/Comfy-Org/stable-audio-3/resolve/main/checkpoints/stable_audio_3_medium.safetensors - text_encoders / qwen3.5_2b_bf16.safetensors
https://huggingface.co/Comfy-Org/Qwen3.5/resolve/main/text_encoders/qwen3.5_2b_bf16.safetensors - text_encoders / t5gemma_b_b_ul2.safetensors
https://huggingface.co/Comfy-Org/stable-audio-3/resolve/main/text_encoders/t5gemma_b_b_ul2.safetensors
ファイルの配置
ダウンロードしたファイルを以下のフォルダに置きます。
※ Stability Matrix ではなく、ComfyUI を直接インストールしている場合は適宜読み替えてください。
(1) チェックポイントファイル
stable_audio_3_medium.safetensors
→ StabilityMatrix のインストールフォルダ\Data\Models\TextEncoders\Data\Models\StableDiffusion
(2) テキストエンコーダ
qwen3.5_2b_bf16.safetensors, t5gemma_b_b_ul2.safetensors
→ StabilityMatrix のインストールフォルダ\Data\Models\TextEncoders
C:\StablilityMatrix にインストールしている場合は以下のような形になります:
C:\STABILITYMATRIX\DATA\MODELS
├─StableDiffusion
│ stable_audio_3_medium.safetensors
│
└─TextEncoders
qwen3.5_2b_bf16.safetensors
t5gemma_b_b_ul2.safetensors
音楽を生成してみる
ワークフローのデフォルトのまま生成してみる
まずは、ComfyUI から読み込めるワークフローを使って生成してみます。
左側 [テンプレート] – stable audio 3.0で検索 – [Stable Audio 3.0 Medium] をクリックします。

まずはテンプレートをそのまま利用して生成してみます。
初回はモデルのロードが行われるため、生成完了まで約24秒かかりました。


ComfyOrg のページのプロンプトを使って生成してみる。
次に ComfyOrg のページにあるプロンプトを参考にいくつか生成してみます。
今回はすべて stable_audio_3_medium.safetensors を使っています。
Music
(1)
Prompt :
Lo-fi hip-hop chill track with mellow electric piano, soft vinyl crackle, subtle synth pads, low-pass filtered drums, percussion loops, and soft plucked bass for a relaxed, dreamy vibe. BPM: 75.
Duration : 150
seed : 136511007057980
reprompt_category : Music
生成時間 : 約 16秒

(2)
Prompt :
Synthwave 80s retro track with arpeggiated synth leads, analog pads, electric bass, punchy electronic drums, gated reverb snares, and atmospheric FX for nostalgic and vibrant energy. BPM: 110.
Duration : 180
seed : 134296237806327
reprompt_category : Music
生成時間 : 約 17秒

Instrument
Prompt :
Guitar muted strum loop with tight rhythmic feel. BPM: 100.
duration: 8
seed : 757917269695303
reprompt_category : Instrument
生成時間 : 約 11秒

Prompt :
Pluck sequence loop with bright resonant tone. BPM: 128.
duration: 10
seed : 288041044149462
reprompt_category : Instrument
生成時間 : 4秒

Sound effects and ambience
Prompt :
Footsteps on gravel, steady walking pace, close perspective.
duration : 10
seed : 426136558004665
reprompt_category : SFX
生成時間 : 約3秒

Prompt :
Car speeding past at high velocity, doppler effect, realistic whoosh.
duration : 3
seed : 304944385492409
reprompt_category : SFX
生成時間 : 約3秒

One-Shot
Prompt :
Bass pluck with jazzy tone and resonant wooden body.
duration : 3
seed : 1103127654224476
reprompt_category : One-Shot
生成時間 : 約2.5秒

Prompt :
Latin drums, dynamic Latin drums and percussion ensemble featuring authentic rhythmic patterns.
duration : 3
seed : 225807174943865
reprompt_category : One-Shot
生成時間 : 約2.5秒

まとめ
Stable Audio 3.0 を ComfyUI から試してみました。
今回試した範囲では、
- 音楽生成
- 効果音生成
- ワンショット音源生成
をローカル環境で手軽に行うことができました。
また、RTX 5060 Ti 16GB 環境では動作も軽快で、生成時間も比較的短く実用的な印象でした。
ComfyUI から手軽に生成できるので試してみると面白いと思います。
参考となれば幸いです。
▼ 関連

