ニューヨーク市に拠点を置くRunway ML(通称Runway)は、高品質な生成AIビデオ制作の先駆者です。2023年2月にGen-1モデル、6月にGen-2モデルを発表した後、OpenAIのSoraモデルやLuma AIのDream Machineなど、リアルなAIビデオ生成器からの競争が激化しています。
その中で、Runwayは生成AIビデオの分野での大きな回復を目指し、Gen-3 Alphaを発表しました。このモデルは「大規模なマルチモーダルトレーニングのための新しいインフラ上で訓練されたSiriーズの第一弾」としてブログで紹介されています。Gen-3 Alphaは、多様な現実の状況や相互作用をシミュレーション可能な一般的なワールドモデルの開発を目指しています。本記事中ではGen-3 Alphaの能力を示したサンプルビデオもご覧いただけます。
Gen-3 Alphaは、ユーザーが感情表現とカメラ動作を正確に反映した10秒間の高品質でリアルなビデオクリップを生成できるようにします。Runwayのスポークスパーソンによると、この初期版では5秒と10秒のクリップ生成が可能で、制作時間が大幅に削減されます。具体的には、5秒のクリップが45秒、10秒のクリップが90秒で生成されます。
リリース日についての具体的な発表はされていませんが、デモビデオはRunwayのウェブサイトやX(旧Twitter)アカウントで公開されています。一般ユーザーへの提供については不明ですが、無料プランまたは月額15ドル、年額144ドルからの有料サブスクリプションでのアクセスが示唆されています。
最近のインタビューで、Runwayの共同創設者兼CTOのアナスタシス・ジャーマニディスは、Gen-3 Alphaが近く有料サブスクライバーに提供されることを確認しました。また、将来的には無料プランのユーザーにも展開される計画があるとのことです。Runwayの代表者は、このモデルがエンタープライズユーザーやクリエイティブパートナープログラムに参加しているユーザーにも提供されると述べました。
ジャーマニディス氏は、Gen-3 Alphaがテキストからビデオ、画像からビデオへの既存の機能を強化し、新機能も導入することを述べています。Gen-2のリリース以来、Runwayはビデオ拡散モデルのスケールアップがまだ最適性能に達していないことを発見しており、視覚コンテンツの強力な表現を開発できるとしています。
拡散とは、AIモデルが「ノイズ」と呼ばれるピクセル化された要素から視覚概念を再構築する学習方法です。Runwayは、Gen-3 Alphaが「ビデオと画像の両方で共同訓練されている」と主張しており、研究科学者、エンジニア、アーティストのチームに指導されています。ただし、使用された特定のデータセットについての詳細は公表されていないのが現状です。
批評家は、AIモデルの作成者が元のデータの著作者にライセンス料を支払うべきであると主張し、著作権侵害訴訟を追求するものもいます。しかし、AI企業は公開されているデータを合法的に利用できると主張しています。
Gen-3 Alphaの訓練データについて尋ねられた際、Runwayのスポークスパーソンは、社内の研究チームによって管理されたキュレーション済みの内部データセットに依存していると述べました。
さらに、Runwayは主要メディアやエンターテインメント企業と提携して、特定の芸術的および物語的な目標を満たすスタイルの一貫性を持たせたカスタマイズ版Gen-3の開発に取り組んでいます。これらのコラボレーションの詳細はまだ発表されていませんが、受賞歴のあるプロジェクト「Everything Everywhere All at Once」や「The People’s Joker」の映画製作者がRunwayの技術を利用したことがあります。
Runwayはカスタム版Gen-3に興味がある組織のためのフォームも提供していますが、カスタムモデルの訓練に関する価格の詳細は公開されていません。Runwayが急速に進化する生成AIビデオ制作分野のリーダーとしての地位を維持するために全力で取り組んでいることは明らかです。