Microsoftの最新AI動画モデルが軌道ベース生成技術を進化させる

Home AIニュース Microsoftの最新AI動画モデルが軌道ベース生成技術を進化させる

AI企業がビデオ生成技術の向上を目指して激しい競争を繰り広げています。最近、Stability AIやPika Labsなどの主要プレーヤーが、テキストや画像のプロンプトからビデオを生成するモデルを発表しました。これらの進展を基盤に、Microsoftは「DragNUWA」という新しいモデルを紹介し、ビデオ制作におけるさらなる制御を実現しました。

DragNUWAは従来のテキストおよび画像入力方法を強化し、軌跡ベースの生成を取り入れることで、ユーザーは特定のパスに沿ってオブジェクトやビデオフレーム全体を操作できます。この革新により、ビデオ作成の意味的、空間的、時間的な側面を精密に制御できる一方で、高品質な出力を確保します。

Microsoftはこのモデルの重みとデモをオープンソース化し、コミュニティに実験を呼びかけています。しかし、これは依然として研究プロジェクトであり、完全に洗練されていないことを認識することが重要です。

Microsoft DragNUWAの特異性

AIによるビデオ生成は通常、テキスト、画像、または軌跡入力に依存していますが、これらの方法は詳細な制御を提供するのに苦労しがちです。例えば、テキストと画像だけに依存すると、ビデオに不可欠な微妙な動きの詳細が抜け落ちる可能性があります。

2023年8月、MicrosoftのAIチームはDragNUWAを導入しました。これはオープンドメインの拡散ベースのビデオ生成モデルで、画像、テキスト、軌跡の入力を統合し、精密なビデオ制御を可能にします。ユーザーは具体的なテキスト、画像、軌跡を定義することで、カメラの動きやオブジェクトの動きを管理できます。

例えば、ユーザーは水上のボートの画像をアップロードし、「湖で航行するボート」というテキストプロンプトを組み合わせ、ボートの動きの指示を提供します。この入力により、指定された通りに航行するボートのビデオが生成され、軌跡が動きの詳細を明確にし、言葉が将来のオブジェクトを示し、画像が主題を区別します。

DragNUWAの実績

DragNUWAの初版1.5はHugging Faceでリリースされたばかりで、Stability AIのStable Video Diffusionモデルを活用して、定義されたパスに基づいた画像のアニメーションを生成しています。この技術の進化は、ビデオ生成と編集を大幅に簡素化する可能性を秘めています。背景を変えたり、画像をアニメーション化したり、簡単な指示で動きを指示したりすることができます。

AI愛好者たちはこの進展に大いに興奮しており、創造的なAIにおける重要な一歩と見なしています。しかし、このモデルの実際の性能は今後の検証が必要です。初期テストでは、DragNUWAがさまざまなドラッグ軌跡に沿ってカメラの動きやオブジェクトの動きを正確に実行できることが示されています。

Microsoftの研究者は、次のように述べています。「DragNUWAは複雑な曲線軌道をサポートし、オブジェクトが緻密なパスに沿って動くことを可能にします。また、変動する軌跡の長さを考慮することで、より大きな動きの振幅を実現できます。さらに、DragNUWAは複数のオブジェクトの軌跡を同時に制御することもできます。他のビデオ生成モデルがこのような軌跡制御を実現していないことから、DragNUWAのビデオ生成技術の進展の可能性が際立っています。」

この研究は、AIビデオの研究が拡大し続ける中でも特に注目すべき貢献です。最近、Pika LabsがChatGPTに似たテキストからビデオへのインターフェースを発表し、多様なカスタマイズオプションを使って高品質な短編ビデオを生成することで話題を集めています。

ルミナールがメルセデス・ベンツと提携し、革新的な自動緊急ステアリングシステムを発表

Rabbit、r1 AIポケットコンパニオンを発表：簡単タスク管理のためのあなた専用アシスタント

Most people like

Userpilot

329.8K

Userpilotは、パーソナライズされたアプリ内体験を通じてユーザーのエンゲージメントを向上させ、ビジネスの大幅な成長を促進する革新的な製品成長プラットフォームです。

プロダクト成長 AI Product Description Generator

Yokoy - Spend Management Suite

35.7K

私たちのAI駆動のスイートを使って、効果的な支出管理の力を発見してください。この革新的なソリューションは、最先端技術を駆使して予算を最適化し、経費を合理化し、財務報告を強化します。AI搭載のツールを活用することで、組織は貴重な洞察を得て、意思決定を改善し、大幅なコスト削減を実現できます。私たちの包括的な支出管理プラットフォームを使って、今日から財務戦略を変革しましょう。

AI駆動の Other

Veggie AI

43.7K

視覚コンテンツが主役となる時代において、AI動画生成ツールの力を活用することは、クリエイティブプロセスを変革します。高度なアルゴリズムを搭載したこれらのツールは、ユーザーがカスタマイズ可能な動画を作成し、観客を魅了し、メッセージを効果的に伝えることを可能にします。マーケター、教育者、コンテンツクリエイターを問わず、AI技術を動画制作に活用する方法を発見することは、プロジェクトのあらゆる側面をより良くコントロールできる革命的なアプローチを提供します。AI駆動の動画制作の世界に飛び込み、今日から物語を語る無限の可能性を解き放ちましょう。

制御可能な動画生成 Image to Video

Belva – Redefining Communication

8.5K

Belvaは、複数のタスクをスムーズに管理し、コミュニケーションの効率を向上させるために設計された高度なAI電話エージェントです。

AI電話エージェント AI Product Description Generator

Find AI tools in YBX