Stability AIの最新モデル、Stable Video Diffusion(SVD)の紹介
Stability AIは、広く知られるテキストから画像を生成する「Stable Diffusion」に続き、最新の基盤モデル「Stable Video Diffusion(SVD)」を発表しました。このモデルは、同社の開発者プラットフォームとアプリケーションプログラミングインターフェース(API)を通じて利用可能であり、第三者の開発者が自分のアプリやウェブサイト、ソフトウェアソリューションに統合できるようになっています。
企業はこの新たなモデルを通じて、さまざまな業界向けの先進的な動画生成機能を手軽に取り入れることができると、同社はブログで述べています。「この新しい追加により、さまざまな分野に特化した最先端の動画モデルへのプログラム的なアクセスが提供されます。私たちの目標は、開発者が効率的に高品質な動画生成を自社製品に統合できる手段を提供することです。」
このリリースはAI生成動画を制作する企業にとって強力なツールですが、同時にいくつかの懸念も生じています。Stability AIは最近、公序良俗に反するコンテンツが含まれているLAION-5Bデータセットを使用していたことから注目を浴び、当該データセットは流通から外されています。
それでも、Stability AIのSVD APIは動画品質において競争力を保っています。LinkedInの投稿によると、SVDモデルは、25フレームの生成と24フレームのフィルム補間を含む2秒間の動画を41秒で生成することができます。これは大規模な動画キャンペーンには不十分かもしれませんが、GIFや特定のメッセージ(ミームなど)の生成には非常に有用です。
SVDは、最近5500万ドルの資金調達を行ったRunwayやPika Labsの動画生成モデルと競合していますが、これらのモデルはAPIを介して利用できないため、ユーザーは各自のウェブサイトやアプリから直接アクセスする必要があります。
さらに、Stability AIは動画生成機能のユーザー向けウェブ体験を提供する計画をしており、ユーザーが早期アクセスのための待機リストに登録できるようになっています。
Stable Video Diffusionとは
約1か月前に研究プレビューとして発表されたStable Video Diffusionは、JPEGやPNGなどの静止画像からMP4動画を生成することができます。初期サンプルでは、モデルが最大2秒の短いクリップを生成できることが示されていますが、開発段階のため、研究指向のモデルと比較して動画の長さは限られています。
ただし、短いクリップを複数組み合わせることで、より長い動画を制作可能です。Stability AIは、このモデルが広告やマーケティング、テレビ・映画、ゲームなどの分野で有益であると主張しています。
最新のSVDモデルは、1024×576、768×768、576×1024など、複数のレイアウトや解像度で動画を生成できます。また、運動の強さを制御し、シードに基づいた生成も可能なため、再現性のある出力とランダムな出力の両方が実現できます。
論争の中を乗り越える
Stable Video Diffusionのローンチは、企業が動画機能を統合する容易な方法を提供する一方で、Stability AIが市場での地位を確立するための取り組みが続いていることも浮き彫りにしています。最近のスタンフォードインターネットオブザーバリーの報告によると、人気のAIモデルを訓練する際に利用されたLAION-5Bデータセットには不適切な素材が含まれており、削除されました。また、Stability AIは、Stable Diffusionの制作にあたり著作権画像を許可なく取得したとして、集団訴訟にも直面しています。
現在、Stability AIの開発者プラットフォームAPIを通じて、Stable Diffusion XLテキストから画像生成、そして新たなSVDモデルを含むすべてのモデルにアクセスできます。同社は、顧客がこれらのモデルをローカルにホスティングするためのメンバーシップオプションも提供しています。