為何Meta的V-JEPA模型將徹底改變現實世界的人工智慧應用

Home AI新聞為何Meta的V-JEPA模型將徹底改變現實世界的人工智慧應用

Meta的人工智慧負責人Yann LeCun長期以來一直主張機器學習系統應該能夠在最小人類指導下，自主地探索和理解其環境。Meta最新推出的V-JEPA（視頻聯合嵌入預測架構）更接近這一雄心勃勃的目標。

V-JEPA旨在模仿人類和動物預測物體互動的能力，通過從原始視頻中學習抽象表示來實現。

V-JEPA的運作原理

想象一段球飛向牆壁的視頻；你會預期它在碰撞後會反彈。這些基本觀察構成我們早期學習解釋世界的基礎，往往在獲得語言能力之前。V-JEPA採用了一種稱為「自監督學習」的方法，消除了對人類標記數據的需求。在訓練過程中，模型接收部分被遮罩的視頻片段，促使其預測隱藏的內容。它不打算重建每個像素，而是識別一組緊湊的潛在特徵，展示場景中元素之間的互動。V-JEPA然後將其預測與實際視頻內容進行比較，根據差異調整參數。

通過專注於潛在表示，V-JEPA增強了模型的穩定性和效率。它不局限於單一任務，而是在豐富多樣的視頻上進行訓練，以反映現實世界的變化。研究人員實施了專門的遮罩策略，促進模型深入理解物體之間的深層互動，而非淺顯的捷徑。

經過廣泛的視頻訓練，V-JEPA建立了一個強大的物理世界模型，能夠理解複雜的物體互動。2022年由LeCun提出的V-JEPA，是去年針對圖像發布的I-JEPA模型的進化版本。不同的是，V-JEPA分析視頻，利用其時間特性來培養更連貫的表示。

V-JEPA的應用

作為一個基礎模型，V-JEPA是一個可適應於多種任務的多功能系統。與大多數機器學習模型需要微調的普遍需求不同，V-JEPA可以直接作為輸入，為需要最少標記示例的輕量級深度學習模型提供支持，將其表示與特定任務（如圖像分類、動作分類和時空動作檢測）連接。這種架構不僅資源高效，而且更易於管理。

這一能力在機器人技術和自駕汽車等領域尤為重要，因為這些系統必須理解和導航其環境，擁有一個現實的世界模型。

「V-JEPA是朝向更扎實理解世界的一步，使機器能夠進行概括性推理和規劃，」LeCun表示。

儘管取得了進展，V-JEPA仍有潛力進一步提升。目前，它在短視頻序列的推理上表現出色，但Meta的研究團隊的下一個挑戰是延長其時間範圍。此外，他們還希望通過實驗多模態表示來縮小JEPA與自然智能之間的差距。Meta已在Creative Commons非商業許可下提供V-JEPA，邀請研究社群進行合作和實驗。

在反思AI的全景時，LeCun將智能比作一個蛋糕，自監督學習是最大的一部分，而監督學習則像糖霜，強化學習則是頂部的櫻桃。

儘管我們已取得重要進展，但我們只是在揭開AI完整潛力的序幕。

Gradial 獲得 540 萬美元投資，致力於將人工智慧整合進企業行銷工作流程中。

SimplrOps：人工智慧驅動的雲端ERP管理新興強者