Stable Audio 3.0 をローカル環境で動かす (RTX 5060Ti 16GB)

本サイトで紹介している商品・サービス等の外部リンクには、アフィリエイト広告が含まれる場合があります。

概要

画像生成AIでは Stable Diffusion が広く知られていますが、その開発元である Stability AI から音楽・効果音生成AI「Stable Audio 3.0」が公開されています。

ComfyUI から利用できるようになっていたため、今回はローカル環境で試してみました。

Stable Audio 3.0 とは

Stable Audio 3.0 は Stability AI が開発する音楽・効果音生成AIモデルです。
テキストプロンプトから音楽や効果音を生成できるほか、ローカル環境で実行できるモデルも公開されています。

また、用途ごとに複数のモデルが用意されている点も特徴です。
公開されているのは Small-SFX, Small-Music, Medium です。

モデル用途
Small-SFX効果音生成 (7秒まで)
Small-Music短い音楽生成 (120秒まで)
Medium長時間の音楽生成 (380秒まで)
Largeエンタープライズ向け高性能モデル

公式サイト

https://stability.ai/stable-audio

Hugging Face
https://huggingface.co/collections/stabilityai/stable-audio-3

ライセンス

Stable Audio 3.0 は Stability AI Community License で提供されています。

年間売上100万ドル未満の個人や小規模事業者は Community License の対象となります。年間売上100万ドルを超える企業は Enterprise License が必要です。

ライセンスの詳細は以下を参照してください。
Stability AI License

ローカル実行環境の用意

PC 環境

NVIDIA GeForce RTX 5060 Ti 16GB を搭載した自作 PC を使用します。

Stability Matrix + ComfyUI の実行環境の用意

ComfyUI は、以前 Stability Matrix で用意したものを使います。準備方法については、過去記事をご参照ください。

Stable Audio 3.0 は ComfyUI でサポートされており、ワークフローは ComfyUI に標準で含まれるテンプレートから読み込めます。
https://blog.comfy.org/p/stable-audio-3-day-0-support

また、ComfyOrg による再パッケージ版も公開されています。
https://huggingface.co/Comfy-Org/stable-audio-3

Stability Matrix と ComfyUI のアップデート

古いバージョンだと正常に動作しない可能性があるため、事前に更新しておきます。

  • Stability Matrix – Settings – アップデート
  • Stability Matrix – パッケージ – ComfyUI の更新

以下では、
Stability Matrix 2.15.8
ComfyUI 0.24.0
で試しています。

必要なモデルファイルのダウンロード

必要なモデルファイルをダウンロードします。

オリジナルの Stable Audio 3.0 のモデルをダウンロードするには、利用規約に同意し、連絡先などを入力する必要があります。
https://huggingface.co/stabilityai/stable-audio-3-medium

Hugging Face - Stable Audio 3.0 Medium

今回は ComfyOrg による再パッケージ版の stable_audio_3_medium.safetensors を利用します。
https://huggingface.co/Comfy-Org/stable-audio-3

Hugging Face - Comfy-org - stable-audio-3

それぞれ必要なモデルファイルをダウンロードします。

ファイルの配置

ダウンロードしたファイルを以下のフォルダに置きます。
※ Stability Matrix ではなく、ComfyUI を直接インストールしている場合は適宜読み替えてください。

(1) チェックポイントファイル
stable_audio_3_medium.safetensors
 → StabilityMatrix のインストールフォルダ\Data\Models\TextEncoders\Data\Models\StableDiffusion

(2) テキストエンコーダ
qwen3.5_2b_bf16.safetensors, t5gemma_b_b_ul2.safetensors
 → StabilityMatrix のインストールフォルダ\Data\Models\TextEncoders

C:\StablilityMatrix にインストールしている場合は以下のような形になります:

C:\STABILITYMATRIX\DATA\MODELS
├─StableDiffusion
│      stable_audio_3_medium.safetensors
│
└─TextEncoders
        qwen3.5_2b_bf16.safetensors
        t5gemma_b_b_ul2.safetensors

音楽を生成してみる

ワークフローのデフォルトのまま生成してみる

まずは、ComfyUI から読み込めるワークフローを使って生成してみます。

左側 [テンプレート] – stable audio 3.0で検索 – [Stable Audio 3.0 Medium] をクリックします。

ComfyUI - テンプレート - Stable Audio 3.0 Medium

まずはテンプレートをそのまま利用して生成してみます。
初回はモデルのロードが行われるため、生成完了まで約24秒かかりました。

ComfyOrg のページのプロンプトを使って生成してみる。

次に ComfyOrg のページにあるプロンプトを参考にいくつか生成してみます。
今回はすべて stable_audio_3_medium.safetensors を使っています。

Music

(1)
Prompt :

Lo-fi hip-hop chill track with mellow electric piano, soft vinyl crackle, subtle synth pads, low-pass filtered drums, percussion loops, and soft plucked bass for a relaxed, dreamy vibe. BPM: 75.

Duration : 150
seed : 136511007057980
reprompt_category : Music

生成時間 : 約 16秒

サンプルプロンプト1つ目から生成

(2)
Prompt :

Synthwave 80s retro track with arpeggiated synth leads, analog pads, electric bass, punchy electronic drums, gated reverb snares, and atmospheric FX for nostalgic and vibrant energy. BPM: 110.

Duration : 180
seed : 134296237806327
reprompt_category : Music

生成時間 : 約 17秒

サンプルプロンプト2つ目から生成

Instrument

Prompt :

Guitar muted strum loop with tight rhythmic feel. BPM: 100.

duration: 8
seed : 757917269695303
reprompt_category : Instrument

生成時間 : 約 11秒

サンプルプロンプト3つ目から生成

Prompt :

Pluck sequence loop with bright resonant tone. BPM: 128.

duration: 10
seed : 288041044149462
reprompt_category : Instrument

生成時間 : 4秒

サンプルプロンプト4つ目から生成

Sound effects and ambience

Prompt :

Footsteps on gravel, steady walking pace, close perspective.

duration : 10
seed : 426136558004665
reprompt_category : SFX

生成時間 : 約3秒

サンプルプロンプト5つ目から生成

Prompt :

Car speeding past at high velocity, doppler effect, realistic whoosh.

duration : 3
seed : 304944385492409
reprompt_category : SFX

生成時間 : 約3秒

サンプルプロンプト6つ目から生成

One-Shot

Prompt :

Bass pluck with jazzy tone and resonant wooden body.

duration : 3
seed : 1103127654224476
reprompt_category : One-Shot

生成時間 : 約2.5秒

サンプルプロンプト7つ目から生成

Prompt :

Latin drums, dynamic Latin drums and percussion ensemble featuring authentic rhythmic patterns.

duration : 3
seed : 225807174943865
reprompt_category : One-Shot

生成時間 : 約2.5秒

サンプルプロンプト8個目から生成

まとめ

Stable Audio 3.0 を ComfyUI から試してみました。

今回試した範囲では、

  • 音楽生成
  • 効果音生成
  • ワンショット音源生成

をローカル環境で手軽に行うことができました。

また、RTX 5060 Ti 16GB 環境では動作も軽快で、生成時間も比較的短く実用的な印象でした。

ComfyUI から手軽に生成できるので試してみると面白いと思います。

参考となれば幸いです。

▼ 関連