MetaのV-JEPAモデルが現実のAIアプリケーションを変革する理由

MetaのAI部門の責任者ヤン・ルカンは、機械学習(ML)システムが人間の最小限の指導で、自律的に環境を探索し理解できるようになることを長年提唱しています。Metaの最新の進展であるV-JEPA(ビデオ共同埋め込み予測アーキテクチャ)は、この野心的な目標に一歩近づいたものです。

V-JEPAの目的

V-JEPAは、物体がどのように相互作用するかを予測する人間や動物の能力を再現することを目指しています。これを達成するために、生の動画から抽象的な表現を学習します。

V-JEPAの仕組み

例えば、ボールが壁に向かって飛んでいる動画を考えてみてください。衝突時に跳ね返ることを予測するのは自然なことです。こういった基本的な観察は、言葉を習得する前の幼少期に世界を解釈する基盤を形成します。V-JEPAは「自己教師あり学習」と呼ばれるアプローチを採用しており、人間がラベル付けしたデータを必要としません。トレーニング中に、特定の部分がマスキングされた動画セグメントがモデルに提供され、隠されたコンテンツを予測するよう促します。全てのピクセルを再現するのではなく、シーン内の要素がどのように相互作用するかを示すコンパクトな潜在特徴のセットを特定します。V-JEPAは予測と実際の動画コンテンツを比較し、ズレに基づいてパラメータを調整します。

潜在表現に重点を置くことで、V-JEPAはモデルの安定性と効率性を向上させます。単一のタスクに特化するのではなく、現実世界の多様性を反映したさまざまな動画でトレーニングを行います。研究者たちは、モデルが表面的なショートカットではなく、深い物体相互作用を理解できるようにするため、特別なマスキング戦略を実施しました。

V-JEPAの成果

広範な動画トレーニングを経て、V-JEPAは複雑な物体相互作用を理解する強力な物理世界モデルを構築します。2022年にルカンが提案したV-JEPAは、昨年リリースされたI-JEPAモデルの進化版で、I-JEPAが画像に焦点を当てていたのに対し、V-JEPAは動画を分析し、時間的側面を活かしてより一貫性のある表現を育成します。

V-JEPAは基盤モデルとして、さまざまなタスクに適応可能なシステムです。一般的なMLモデルを微調整する必要があるのとは異なり、V-JEPAは軽量な深層学習モデルへの入力として直接使用でき、特定のタスク(画像分類、行動分類、時間空間的行動検出など)にその表現を結びつけるために最小限のラベル付きサンプルを必要とします。このアーキテクチャはリソース効率が高いだけでなく、管理も容易です。

この能力は、ロボティクスや自動運転車など、環境を理解しナビゲートする必要がある分野で非常に重要です。ルカンは、「V-JEPAは、機械が一般的な推論と計画を行うためのより現実的な理解への一歩です」と述べています。

今後の展望

V-JEPAは進展を遂げていますが、さらなる改善の余地もあります。現在は短い動画シーケンスにおける推論に優れていますが、Metaの研究チームはその時間的視野を延ばすことに挑戦する予定です。また、JEPAと自然知能とのギャップを埋めるために、多モーダル表現の実験も目指しています。MetaはV-JEPAをクリエイティブ・コモンズ非商用ライセンスのもとで公開し、研究コミュニティからの協力や実験を促しています。

AIの現状について考えを述べたルカンは、知能をケーキに例え、自己教師あり学習が最も大きな部分を占め、教師あり学習がその上のアイシング、強化学習がその上のサクランボだと表現しました。私たちは大きな成果を上げていますが、AIの完全な可能性をまだ発見し始めたに過ぎません。

Most people like

Find AI tools in YBX