Meta的人工智能首席科学家Yann LeCun长期以来一直倡导发展能够自主探索和理解环境的机器学习(ML)系统。Meta近期推出的V-JEPA(视频联合嵌入预测架构)更接近这一雄心勃勃的目标。
V-JEPA的目标
V-JEPA旨在模仿人类和动物预测物体之间相互作用的能力,通过从原始视频中学习抽象表示来实现这一目标。
V-JEPA的工作原理
以一段球飞向墙壁的视频为例;我们期望它在碰撞后反弹。这些基本观察构成了我们早期理解世界的基础,往往是在掌握语言技能之前。V-JEPA采用了类似的自监督学习方法,无需人类标记的数据。在训练过程中,模型将视频片段的某些部分遮蔽,促使其预测隐藏的内容。其目标不是重现每一个像素,而是识别出一组紧凑的潜在特征,以展示场景中元素的相互作用。V-JEPA随后将其预测与实际视频内容进行比较,并根据差异调整参数。
通过关注潜在表示,V-JEPA提升了模型的稳定性和效率。它不是专注于单一任务,而是在反映现实世界变异性的视频上进行训练。研究人员实施了一种专门的遮蔽策略,以鼓励模型深入理解物体之间的复杂交互,而非依赖表面上的捷径。
经过大量视频训练,V-JEPA能够构建出强大的物理世界模型,擅长理解复杂的物体交互。V-JEPA最初由LeCun在2022年提出,是去年的I-JEPA模型的演进,后者集中于图像分析。与之不同,V-JEPA分析视频,利用其时间特性培养更连贯的表示。
V-JEPA的应用
作为一种基础模型,V-JEPA可适应多种任务。与大多数机器学习模型的微调需求不同,V-JEPA可以直接用于轻量级深度学习模型,将其表示与特定任务(如图像分类、动作分类和时空动作检测)连接,所需标注样本极少。这一架构不仅资源高效,而且易于管理。
这一能力在机器人和自动驾驶汽车等领域至关重要,因为这些系统必须理解并导航于其环境中,建立真实的世界模型。
LeCun表示:“V-JEPA朝着更加扎实的世界理解迈出了一步,使机器能够进行通用推理和规划。”
尽管取得了一定进展,V-JEPA仍有进一步改进的潜力。它目前在短视频序列上的推理表现出色,但Meta研究团队的下一个挑战是扩展其时间视野。此外,他们还计划通过实验多模态表示,缩小JEPA与自然智能之间的差距。Meta已将V-JEPA以知识共享非商业许可证的形式发布,鼓励研究社区的协作与实验。
在反思人工智能的全景时,LeCun将智能比作蛋糕,自监督学习构成了最大部分,监督学习是糖霜,而强化学习则是顶上的樱桃。
尽管我们已经取得显著进展,但我们才刚刚开始探索人工智能的全部潜力。