Stable Audio 3.0 をローカル環境で動かす (RTX 5060Ti 16GB)

本サイトで紹介している商品・サービス等の外部リンクには、アフィリエイト広告が含まれる場合があります。

2026年6月7日2026年7月12日

概要

画像生成AIでは Stable Diffusion が広く知られていますが、その開発元である Stability AI から音楽・効果音生成AI「Stable Audio 3.0」が公開されています。

ComfyUI から利用できるようになっていたため、今回はローカル環境で試してみました。

Stable Audio 3.0 とは

Stable Audio 3.0 は Stability AI が開発する音楽・効果音生成AIモデルです。
テキストプロンプトから音楽や効果音を生成できるほか、ローカル環境で実行できるモデルも公開されています。

また、用途ごとに複数のモデルが用意されている点も特徴です。
公開されているのは Small-SFX, Small-Music, Medium です。

モデル	用途
Small-SFX	効果音生成 (7秒まで)
Small-Music	短い音楽生成 (120秒まで)
Medium	長時間の音楽生成 (380秒まで）
Large	エンタープライズ向け高性能モデル

公式サイト

https://stability.ai/stable-audio

Hugging Face
https://huggingface.co/collections/stabilityai/stable-audio-3

ライセンス

Stable Audio 3.0 は Stability AI Community License で提供されています。

年間売上100万ドル未満の個人や小規模事業者は Community License の対象となります。年間売上100万ドルを超える企業は Enterprise License が必要です。

ライセンスの詳細は以下を参照してください。
Stability AI License

ローカル実行環境の用意

PC 環境

NVIDIA GeForce RTX 5060 Ti 16GB を搭載した自作 PC を使用します。

参考

RTX 5060Ti 16GB でナイスミドルな自作PC

アプつ

Stability Matrix + ComfyUI の実行環境の用意

ComfyUI は、以前 Stability Matrix で用意したものを使います。準備方法については、過去記事をご参照ください。

参考

Stable Diffusion の実行環境を用意する (GUI / Stability Matrix, 2024年12月)

アプつ

Stable Audio 3.0 は ComfyUI でサポートされており、ワークフローは ComfyUI に標準で含まれるテンプレートから読み込めます。
https://blog.comfy.org/p/stable-audio-3-day-0-support

また、ComfyOrg による再パッケージ版も公開されています。
https://huggingface.co/Comfy-Org/stable-audio-3

Stability Matrix と ComfyUI のアップデート

古いバージョンだと正常に動作しない可能性があるため、事前に更新しておきます。

Stability Matrix – Settings – アップデート
Stability Matrix – パッケージ – ComfyUI の更新

以下では、
Stability Matrix 2.15.8
ComfyUI 0.24.0
で試しています。

必要なモデルファイルのダウンロード

必要なモデルファイルをダウンロードします。

オリジナルの Stable Audio 3.0 のモデルをダウンロードするには、利用規約に同意し、連絡先などを入力する必要があります。
https://huggingface.co/stabilityai/stable-audio-3-medium

今回は ComfyOrg による再パッケージ版の stable_audio_3_medium.safetensors を利用します。
https://huggingface.co/Comfy-Org/stable-audio-3

Hugging Face - Comfy-org - stable-audio-3

それぞれ必要なモデルファイルをダウンロードします。

checkpoints / stable_audio_3_medium.safetensors
https://huggingface.co/Comfy-Org/stable-audio-3/resolve/main/checkpoints/stable_audio_3_medium.safetensors
text_encoders / qwen3.5_2b_bf16.safetensors
https://huggingface.co/Comfy-Org/Qwen3.5/resolve/main/text_encoders/qwen3.5_2b_bf16.safetensors
text_encoders / t5gemma_b_b_ul2.safetensors
https://huggingface.co/Comfy-Org/stable-audio-3/resolve/main/text_encoders/t5gemma_b_b_ul2.safetensors

ファイルの配置

ダウンロードしたファイルを以下のフォルダに置きます。
※ Stability Matrix ではなく、ComfyUI を直接インストールしている場合は適宜読み替えてください。

(1) チェックポイントファイル
stable_audio_3_medium.safetensors
　→ StabilityMatrix のインストールフォルダ\Data\Models\StableDiffusion

(2) テキストエンコーダ
qwen3.5_2b_bf16.safetensors, t5gemma_b_b_ul2.safetensors
　→ StabilityMatrix のインストールフォルダ\Data\Models\TextEncoders

C:\StablilityMatrix にインストールしている場合は以下のような形になります:

C:\STABILITYMATRIX\DATA\MODELS
├─StableDiffusion
│      stable_audio_3_medium.safetensors
│
└─TextEncoders
        qwen3.5_2b_bf16.safetensors
        t5gemma_b_b_ul2.safetensors

音楽を生成してみる

ワークフローのデフォルトのまま生成してみる

まずは、ComfyUI から読み込めるワークフローを使って生成してみます。

左側 [テンプレート] – stable audio 3.0で検索 – [Stable Audio 3.0 Medium] をクリックします。

ComfyUI - テンプレート - Stable Audio 3.0 Medium

まずはテンプレートをそのまま利用して生成してみます。
初回はモデルのロードが行われるため、生成完了まで約24秒かかりました。

Stable Audio 3.0 Medium のワークフロー - プロンプト入力部分を拡大

ComfyOrg のページのプロンプトを使って生成してみる。

次に ComfyOrg のページにあるプロンプトを参考にいくつか生成してみます。
今回はすべて stable_audio_3_medium.safetensors を使っています。

Music

(1)
Prompt :

Lo-fi hip-hop chill track with mellow electric piano, soft vinyl crackle, subtle synth pads, low-pass filtered drums, percussion loops, and soft plucked bass for a relaxed, dreamy vibe. BPM: 75.

Duration : 150
seed : 136511007057980
reprompt_category : Music

生成時間 : 約 16秒

(2)
Prompt :

Synthwave 80s retro track with arpeggiated synth leads, analog pads, electric bass, punchy electronic drums, gated reverb snares, and atmospheric FX for nostalgic and vibrant energy. BPM: 110.

Duration : 180
seed : 134296237806327
reprompt_category : Music

生成時間 : 約 17秒

Instrument

Prompt :

Guitar muted strum loop with tight rhythmic feel. BPM: 100.

duration: 8
seed : 757917269695303
reprompt_category : Instrument

生成時間 : 約 11秒

Prompt :

Pluck sequence loop with bright resonant tone. BPM: 128.

duration: 10
seed : 288041044149462
reprompt_category : Instrument

生成時間 : 4秒

Sound effects and ambience

Prompt :

Footsteps on gravel, steady walking pace, close perspective.

duration : 10
seed : 426136558004665
reprompt_category : SFX

生成時間 : 約3秒

Prompt :

Car speeding past at high velocity, doppler effect, realistic whoosh.

duration : 3
seed : 304944385492409
reprompt_category : SFX

生成時間 : 約3秒

One-Shot

Prompt :

Bass pluck with jazzy tone and resonant wooden body.

duration : 3
seed : 1103127654224476
reprompt_category : One-Shot

生成時間 : 約2.5秒

Prompt :

Latin drums, dynamic Latin drums and percussion ensemble featuring authentic rhythmic patterns.

duration : 3
seed : 225807174943865
reprompt_category : One-Shot

生成時間 : 約2.5秒

まとめ

Stable Audio 3.0 を ComfyUI から試してみました。

今回試した範囲では、

音楽生成
効果音生成
ワンショット音源生成

をローカル環境で手軽に行うことができました。

また、RTX 5060 Ti 16GB 環境では動作も軽快で、生成時間も比較的短く実用的な印象でした。

ComfyUI から手軽に生成できるので試してみると面白いと思います。

参考となれば幸いです。

▼ 関連

リンク

参考

RTX 5060Ti 16GB でナイスミドルな自作PC

アプつ

参考

Stable Diffusion の実行環境を用意する (GUI / Stability Matrix, 2024年12月)

アプつ