ステイビリティAIが新たな展望を提示:Stable Audio 2.0の発表
ステイビリティAIは、生成AIに関するビジョンをさらに進めるため、Stable Audio 2.0モデルを発表しました。テキストから画像を生成するStable Diffusionモデルで広く知られるこの企業は、ポートフォリオを拡大しています。最初のStable Audioは2023年9月に登場し、ユーザーがテキストプロンプトに基づいて短いオーディオクリップを作成できる機能を提供しました。Stable Audio 2.0では、ユーザーは最大3分間の高品質オーディオトラックを生成できるようになり、従来の90秒から倍増しています。
Stable Audio 2.0の新機能には、テキストからオーディオを生成する機能に加え、オーディオからオーディオを生成する能力も追加されました。これにより、ユーザーはサンプルをアップロードし、それをプロンプトとして利用できるようになります。現在、Stable Audioのウェブサイトで限定的に無料利用が可能で、開発者向けのAPIアクセスも近日中に提供予定です。Stable Audio 2.0のリリースは、以前のCEOで創設者のエマド・モスタケ氏が3月に突然辞任して以来、ステイビリティAIにとって初の主要アップデートを意味します。会社は、今回の更新がビジネスの継続を示していることをユーザーに伝えています。
Stable Audio 1.0から2.0への進化
Stable Audio 2.0の開発は、先代モデルであるStable Audio 1.0からの貴重な知見を活かしています。ステイビリティAIのオーディオ研究責任者ザック・エバンズ氏は、初回リリースの際の焦点は、卓越した音質と意味のある出力時間を備えた革新的なモデルの立ち上げだったと述べました。「その後、音楽性の向上、出力時間の延長、詳細なプロンプトへの応答性の改善に注力してきました」とエバンズ氏は言います。「これらの改良は、技術の現実のシナリオでの適用を目指しています。」
Stable Audio 2.0では、整った構造のあるフル音楽トラックを生成可能です。潜在拡散技術を用いることで、モデルは最大3分間の構成を持つ作曲を行うことができ、はじめ、展開、終了のセクションを備えた作品を創ることが可能です。これにより、以前の短いループや断片しか生成できなかった制限を大幅に改善しました。
Stable Audio 2.0の技術基盤
Stable Audio 2.0は、引き続き潜在拡散モデル(LDM)を活用しています。2023年12月にベータリリースされたStable Audio 1.1では、トランスフォーマーバックボーンが組み込まれ、「拡散トランスフォーマー」アーキテクチャが採用されました。「トレーニング中にオーディオに施すデータ圧縮を改善し、出力を3分以上に拡張することが可能になり、効率的な推論時間を維持できるようになりました」とエバンズ氏は述べています。
クリエイティブ機能の向上
Stable Audio 2.0では、テキストプロンプトやアップロードしたオーディオサンプルからのオーディオ生成が可能です。自然言語による指示を用いて音をクリエイティブに変換でき、反復的な修正・編集プロセスを行うこともできます。また、サウンドエフェクトやテクスチャの幅が広がり、没入感のある環境音や街の音、群衆の音などを生成することができます。さらに、生成されたオーディオやアップロードしたオーディオのスタイルやトーンの変更も可能です。
生成AIオーディオにおける著作権の考慮
著作権問題は生成AI分野の重要な課題です。ステイビリティAIは、オーディオモデルを通じて知的財産権を守ることに尽力しています。著作権への配慮から、Stable Audio 2.0はAudioSparxからライセンスを受けたデータのみに基づいてトレーニングされており、オプトアウトのリクエストにも対応しています。コンテンツ認識技術がオーディオのアップロードを監視し、著作権で保護された素材の処理を防いでいます。
著作権を守ることは、ステイビリティAIがStable Audioを商業化し、組織における安全な利用を確保するために不可欠です。現在、Stable Audioはウェブアプリケーションのサブスクリプションを通じて収益を上げており、APIもすぐに登場予定です。ただし、現時点でStable Audioはオープンモデルではありません。エバンズ氏は「Stable Audio 2.0の重みをダウンロードすることはできませんが、今年中にオープンオーディオモデルの開発を進めています」と確認しました。