空動画生成モデルの発表:期待される技術と直面する重要な課題

最近、OpenAIは新しい映像生成モデル「Sora」を発表しました。このモデルは、テキストから動画への技術において大きな進展を遂げています。しかし、Bloombergのテストでは、Soraのいくつかの顕著な限界も明らかになりました。例えば、オウムが猿の前を飛んでいくシーンでは、オウムの翼に歪みが見られ、猿は奇妙にもオウムの尾を持っていました。これらの事例は、Soraが物体の物理的特性を理解する際の課題を浮き彫りにしています。OpenAIの科学者ビル・ピーブルズ氏は、「クリップ内に確かに奇妙な動きがいくつか存在しています」と認めています。

Soraは、拡散トランスフォーマー技術を利用して動画コンテンツをいくつかの小さなセグメントに分解し、デノイジング技術を用いて元の明瞭な画像を予測します。このアプローチは映像生成の質を向上させますが、Soraは物体間の相互作用の正確さ、物体の状態変化の一貫性、長いサンプルでの整合性、自然発生的なオブジェクトの出現、人間の手や身体の適切な扱い、計算資源の要求、モデルの一般化能力、動画の編集や拡張能力など、多くの課題に直面しています。複雑なシーンでは、Soraがバスケットボールがリングの横を通過するなどの不自然な動作を生じることがあります。

Soraが特定のシナリオで優れた性能を示している一方で、OpenAIはこのモデルが解決すべきさまざまな技術的課題があることを認識しています。技術が進歩する中で、Soraの明るい未来に期待が高まります。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles