Meta的人工智慧負責人Yann LeCun長期以來一直主張機器學習系統應該能夠在最小人類指導下,自主地探索和理解其環境。Meta最新推出的V-JEPA(視頻聯合嵌入預測架構)更接近這一雄心勃勃的目標。
V-JEPA旨在模仿人類和動物預測物體互動的能力,通過從原始視頻中學習抽象表示來實現。
V-JEPA的運作原理
想象一段球飛向牆壁的視頻;你會預期它在碰撞後會反彈。這些基本觀察構成我們早期學習解釋世界的基礎,往往在獲得語言能力之前。V-JEPA採用了一種稱為「自監督學習」的方法,消除了對人類標記數據的需求。在訓練過程中,模型接收部分被遮罩的視頻片段,促使其預測隱藏的內容。它不打算重建每個像素,而是識別一組緊湊的潛在特徵,展示場景中元素之間的互動。V-JEPA然後將其預測與實際視頻內容進行比較,根據差異調整參數。
通過專注於潛在表示,V-JEPA增強了模型的穩定性和效率。它不局限於單一任務,而是在豐富多樣的視頻上進行訓練,以反映現實世界的變化。研究人員實施了專門的遮罩策略,促進模型深入理解物體之間的深層互動,而非淺顯的捷徑。
經過廣泛的視頻訓練,V-JEPA建立了一個強大的物理世界模型,能夠理解複雜的物體互動。2022年由LeCun提出的V-JEPA,是去年針對圖像發布的I-JEPA模型的進化版本。不同的是,V-JEPA分析視頻,利用其時間特性來培養更連貫的表示。
V-JEPA的應用
作為一個基礎模型,V-JEPA是一個可適應於多種任務的多功能系統。與大多數機器學習模型需要微調的普遍需求不同,V-JEPA可以直接作為輸入,為需要最少標記示例的輕量級深度學習模型提供支持,將其表示與特定任務(如圖像分類、動作分類和時空動作檢測)連接。這種架構不僅資源高效,而且更易於管理。
這一能力在機器人技術和自駕汽車等領域尤為重要,因為這些系統必須理解和導航其環境,擁有一個現實的世界模型。
「V-JEPA是朝向更扎實理解世界的一步,使機器能夠進行概括性推理和規劃,」LeCun表示。
儘管取得了進展,V-JEPA仍有潛力進一步提升。目前,它在短視頻序列的推理上表現出色,但Meta的研究團隊的下一個挑戰是延長其時間範圍。此外,他們還希望通過實驗多模態表示來縮小JEPA與自然智能之間的差距。Meta已在Creative Commons非商業許可下提供V-JEPA,邀請研究社群進行合作和實驗。
在反思AI的全景時,LeCun將智能比作一個蛋糕,自監督學習是最大的一部分,而監督學習則像糖霜,強化學習則是頂部的櫻桃。
儘管我們已取得重要進展,但我們只是在揭開AI完整潛力的序幕。