Microsoftの最新AI動画モデルが軌道ベース生成技術を進化させる

AI企業がビデオ生成技術の向上を目指して激しい競争を繰り広げています。最近、Stability AIやPika Labsなどの主要プレーヤーが、テキストや画像のプロンプトからビデオを生成するモデルを発表しました。これらの進展を基盤に、Microsoftは「DragNUWA」という新しいモデルを紹介し、ビデオ制作におけるさらなる制御を実現しました。

DragNUWAは従来のテキストおよび画像入力方法を強化し、軌跡ベースの生成を取り入れることで、ユーザーは特定のパスに沿ってオブジェクトやビデオフレーム全体を操作できます。この革新により、ビデオ作成の意味的、空間的、時間的な側面を精密に制御できる一方で、高品質な出力を確保します。

Microsoftはこのモデルの重みとデモをオープンソース化し、コミュニティに実験を呼びかけています。しかし、これは依然として研究プロジェクトであり、完全に洗練されていないことを認識することが重要です。

Microsoft DragNUWAの特異性

AIによるビデオ生成は通常、テキスト、画像、または軌跡入力に依存していますが、これらの方法は詳細な制御を提供するのに苦労しがちです。例えば、テキストと画像だけに依存すると、ビデオに不可欠な微妙な動きの詳細が抜け落ちる可能性があります。

2023年8月、MicrosoftのAIチームはDragNUWAを導入しました。これはオープンドメインの拡散ベースのビデオ生成モデルで、画像、テキスト、軌跡の入力を統合し、精密なビデオ制御を可能にします。ユーザーは具体的なテキスト、画像、軌跡を定義することで、カメラの動きやオブジェクトの動きを管理できます。

例えば、ユーザーは水上のボートの画像をアップロードし、「湖で航行するボート」というテキストプロンプトを組み合わせ、ボートの動きの指示を提供します。この入力により、指定された通りに航行するボートのビデオが生成され、軌跡が動きの詳細を明確にし、言葉が将来のオブジェクトを示し、画像が主題を区別します。

DragNUWAの実績

DragNUWAの初版1.5はHugging Faceでリリースされたばかりで、Stability AIのStable Video Diffusionモデルを活用して、定義されたパスに基づいた画像のアニメーションを生成しています。この技術の進化は、ビデオ生成と編集を大幅に簡素化する可能性を秘めています。背景を変えたり、画像をアニメーション化したり、簡単な指示で動きを指示したりすることができます。

AI愛好者たちはこの進展に大いに興奮しており、創造的なAIにおける重要な一歩と見なしています。しかし、このモデルの実際の性能は今後の検証が必要です。初期テストでは、DragNUWAがさまざまなドラッグ軌跡に沿ってカメラの動きやオブジェクトの動きを正確に実行できることが示されています。

Microsoftの研究者は、次のように述べています。「DragNUWAは複雑な曲線軌道をサポートし、オブジェクトが緻密なパスに沿って動くことを可能にします。また、変動する軌跡の長さを考慮することで、より大きな動きの振幅を実現できます。さらに、DragNUWAは複数のオブジェクトの軌跡を同時に制御することもできます。他のビデオ生成モデルがこのような軌跡制御を実現していないことから、DragNUWAのビデオ生成技術の進展の可能性が際立っています。」

この研究は、AIビデオの研究が拡大し続ける中でも特に注目すべき貢献です。最近、Pika LabsがChatGPTに似たテキストからビデオへのインターフェースを発表し、多様なカスタマイズオプションを使って高品質な短編ビデオを生成することで話題を集めています。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles