ステイビリティAIの新たな音声生成AI「Stable Audio Open 1.0」発表
ステイビリティAIは、音声生成AI「Stable Audio Open 1.0」の提供を開始しました。同社は、テキストから画像を生成する「Stable Diffusion」技術で知られており、コード、テキスト、音声に関する多様なモデルを展開しています。
2023年9月、企業はテキストを音声に変換する生成AIツール「Stable Audio」を発表しました。その後、2024年4月3日にリリースされた「Stable Audio 2.0」では、音質の向上と再生時間の延長が実現されました。
Stable Audio Openの特徴
「Stable Audio Open」は一般商業利用が可能ですが、フルソングではなく、サウンドエフェクトなどの短い音声クリップの生成に特化しています。このモデルは完全なオープンソースではなく、ステイビリティAIの非商業研究コミュニティ合意ライセンスのもとで制限された使用が許可されています。
ステイビリティAI音響研究部門の責任者、ザック・エバンス氏は次のように述べています。「私たちの目標は、音声研究者やプロデューサーに生成音声モデルへの実践的なアクセスを提供し、研究、採用、創造的探求を促進することです。」
Stable Audio Openの機能
Stable Audio Openは、ドラムビート、楽器リフ、環境音、その他の音声サンプルを生成することに特化しています。商業用のStable Audio製品が最大3分間の一貫した音楽トラックを生成するのに対し、Stable Audio Openはテキストプロンプトに基づいて最大47秒間の高品質な音声クリップを作成します。
ステイビリティAIは、著作権のある素材を使用せずに音声データを収集するため、FreeSoundやFree Music Archiveのデータを活用して、責任あるトレーニング方法を優先しています。
クリエイティブな自由のためのチューニング機能
Stable Audio Openの大きな利点は、ユーザーが自身の音声データでモデルをカスタマイズできるファインチューニング機能です。例えば、ドラマーが自分のドラム録音を使用してユニークなビートを生成することができます。このファインチューニングプロセスは、オープンソースのフレームワークに基づくStable Audio Toolsライブラリを使用しています。モデルの重みもHugging Faceで入手可能です。
エバンス氏は、「音声研究チームは、生成音声モデルの品質と制御を向上させるために継続的に取り組んでいます。今後の商業用およびオープンモデルのリリースを期待しています」と付け加えました。
このように、Stable Audio Openはクリエイティブな音楽制作に革新をもたらし、音声研究者に新たな可能性を提供します。