OpenAIがSam Altmanを迎え入れる中、競合他社は人工知能(AI)分野での取り組みを強化しています。AnthropicのClaude 2.1のリリースやAdobeによるRephrase.aiの買収を受けて、Stability AIはStable Video Diffusionを発表し、人気が高まる動画生成分野に本格参入しました。
Stable Video Diffusionの紹介
Stable Video Diffusion(SVD)は、研究用にのみ提供される2つの高度なAIモデル—SVDおよびSVD-XT—から構成されており、静止画像から短い動画クリップを生成します。Stability AIによれば、これらのモデルは高品質な出力を生成し、既存のAI動画生成器と競争するか、それを超える性能を持つとしています。
両モデルは研究プレビューの一環としてオープンソースされており、今後の商業アプリケーション向けに機能向上のためのユーザーフィードバックを取り入れる計画です。
Stable Video Diffusionの仕組み
Stability AIのブログによると、SVDおよびSVD-XTは潜在的拡散モデルであり、単一の静止画像を入力として、576 x 1024の動画クリップを生成します。生成速度は1秒あたり3フレームから30フレームまで対応し、クリップの長さは最大4秒に制限されています。SVDモデルは静止画像から14フレームを生成し、一方でSVD-XTモデルは最大25フレームを生成可能です。
Stable Video Diffusionの開発にあたり、Stability AIは約6億のサンプルからなる厳選された動画データセットをベースモデルの訓練に使用し、その後1百万クリップを含む小規模かつ高品質なデータセットで微調整を行いました。この訓練により、モデルはテキストからの動画生成や画像からの動画生成といったタスクを実行できるようになっています。訓練データは公に利用可能な研究データセットから取得されていますが、具体的な出所については明示されていません。
重要なのは、SVDに関するホワイトペーパーにはこのモデルがさらなる微調整を行うことでマルチビュー合成をサポートできる可能性が示されています。これにより、単一の画像からオブジェクトの一貫した視点を生成可能になります。
Stable Video Diffusionの潜在的な応用は広告、教育、エンターテインメントなどさまざまな分野に及びます。
出力品質と制限
外部評価において、SVDの出力は高品質であり、RunwayやPika Labsの先進的なクローズドなテキストから動画へのモデルを上回る性能を示しました。しかし、Stability AIはこれらのモデルがまだ初期段階にあり、フォトリアリズムに苦労することが多く、時には動きのない動画を生成し、顔や人を期待通りに生成できないことを認めています。
今後、同社は両モデルを精緻化し、現行の制限に対処するとともに、商業利用に向けた新しい機能としてテキストプロンプトサポートやテキストレンダリングを追加することを目指しています。このリリースはオープンな調査への招待状であり、潜在的なバイアスを含む問題を特定し解決するためのものです。
Stability AIは、この基盤の上にさまざまなモデルを構築することを envisioned しており、Stable Diffusion周辺のエコシステムに似たものになるとしています。また、テキストから動画生成を可能にする今後のウェブ体験のためにユーザーを招待しているものの、その具体的な提供時期は不明です。
モデルの使用方法
Stable Video Diffusionモデルを探索するには、ユーザーはStability AIのGitHubリポジトリでコードにアクセスし、ローカルモデル実行に必要な重みをHugging Faceのページから入手できます。使用には、許可されたアプリケーションと除外されたアプリケーションを示す利用規約の同意が必要です。
現在、許可されている使用例には、デザイン関連や教育・創造的なツール向けのアート制作が含まれますが、人やイベントの事実を忠実に再現することは、このプロジェクトの範囲外とされています。