Stability AIがSVD 1.1を発表:AIビデオ生成の新たなステップ
Stability AIは、コンテンツ制作やコーディングのためのオープンソースAIモデルを拡充していることで知られ、画像からビデオを生成する潜在的拡散モデル「Stable Video Diffusion(SVD)」のアップグレードを発表しました。
SVD 1.1のご紹介
新バージョンであるSVD 1.1は、前のバージョンSVD 1.0を基にした改良版です。短いAIビデオを生成するために最適化されており、動きの滑らかさや一貫性が向上しています。Stability AIのCTOであるトム・メイソン氏によれば、SVD 1.1はHugging Faceから公開ダウンロードが可能で、同社のサブスクリプションプランに組み込まれています。これらのプランは個人や企業向けに異なるティアを設けており、無料から月額20ドルまでの価格帯があります。商業利用にはサブスクリプションが必要ですが、研究目的での利用は無料です。
SVD 1.1の強化された機能
2023年11月に発表されたSVDは、静止画像から最大14フレームの4秒ビデオを生成するモデルを初めて導入しました。これを基に、SVD-XTという調整版が最大25フレームの生成が可能です。SVD 1.1は、同じサイズのコンテクストフレームを提供することで、解像度1024×576の25フレームの4秒ビデオを生成します。
特筆すべきは、今回のアップグレードが以前のバージョンと比べて出力の一貫性を高めることを目指している点です。過去のモデルではフォトリアリズムや動きに関する課題、またリアルな人物や顔の生成に苦労していましたが、SVD 1.1はこれらの問題を解決し、より豊かな動的表現を提供することを約束しています。
同社によると、「SVD 1.1の微調整は6FPSおよびモーションバケットID 127で固定条件の下で行われ、一貫した出力を実現するためのハイパーパラメーター調整は不要です。」これらの設定は調整可能ですが、固定条件外ではパフォーマンスが異なることに注意が必要です。
パフォーマンスと今後の展望
Stability AIはSVD 1.1による強化を主張していますが、その実際の効果は今後の評価を待つ必要があります。モデルのHugging Faceページでは研究指向のデザインが強調されており、従来のモデルからのいくつかの課題が依然として存在する可能性が示唆されています。
Hugging Face以外にも、Stable Video DiffusionモデルはStability AIの開発者プラットフォーム経由でAPIにアクセスでき、開発者はアプリケーションに高度なビデオ生成機能を統合できます。このAPIでは、MP4形式で24FPSの4秒ビデオを生成し、25の生成フレームと補間フレームが提供されます。動きの強度調整機能や、1024×576、768×768、576×1024などの異なるレイアウトや解像度のサポートも、使いやすさを向上させています。
未来に向けて
2023年、Stability AIは頻繁なモデルのアップデートを行い、生成AIの分野で重要な進展を遂げました。このトレンドは2024年にも続く見込みです。2019年に設立された同社は、2022年に1億100万ドルの資金調達を行うなど、相当な投資を受けています。しかし、ビデオ生成の分野では、RunwayやPikaのような他社も競争を繰り広げており、これらはユーザーに優しいウェブプラットフォームでビデオのカスタマイズやアップスケーリングを提供しています。
最近、Runwayは特定のエリアをアニメーション化する「Multi Motion Brush」機能を導入しました。同様に、Pikaも特定の地域の編集機能を提供し、例えば牛の顔を鴨の顔に変えることができます。しかし、どちらのモデルもAPIを展開していないため、サードパーティアプリケーションへの統合は制限されています。
AIビデオ生成の領域が進化し続ける中、SVD 1.1の登場は見逃せない進歩といえるでしょう。