메타의 AI 수장 얀 르쿤은 머신러닝(ML) 시스템이 최소한의 인간 지침으로 자율적으로 환경을 탐색하고 이해할 수 있도록 해야 한다고 오랫동안 주장해왔습니다. 메타의 최신 발전인 V-JEPA(비디오 조인트 임베딩 예측 아키텍처)는 이러한 야심찬 목표에 한 걸음 더 다가갔습니다.
V-JEPA는 인간과 동물이 물체 간의 상호작용을 예측하는 능력을 모방하는 것을 목표로 합니다. 이는 원시 비디오 영상을 통해 추상적인 표현을 학습함으로써 이루어집니다.
V-JEPA 작동 원리
벽으로 날아가는 공의 비디오를 생각해 보세요. 충돌 후 공이 튕겨 나올 것으로 예상합니다. 이러한 기본적인 관찰은 우리가 언어 능력을 습득하기 전, 어린 시절에 세상을 해석하는 방법을 배우는 기초가 됩니다. V-JEPA는 "자기 지도 학습"이라는 유사한 접근법을 사용해 인간 라벨이 필요한 데이터를 없앴습니다. 훈련 중 모델은 특정 부분이 마스킹된 비디오 조각을 받아 숨겨진 내용을 예측하도록 유도됩니다. 모든 픽셀을 재현하는 것이 아니라, 장면 내 요소들이 어떻게 상호작용하는지를 보여주는 간결한 잠재 특징 집합을 식별합니다. V-JEPA는 예측한 결과를 실제 비디오 내용과 비교하여 불일치를 바탕으로 매개변수를 조정합니다.
잠재 표현에 집중함으로써 V-JEPA는 모델의 안정성 및 효율성을 높입니다. 단일 작업에 집중하기보다는 현실 세계의 다양성을 반영하는 다양한 비디오로 훈련을 진행합니다. 연구원들은 모델이 깊은 객체 상호작용을 이해하도록 유도하는 특별한 마스킹 전략을 도입했습니다.
광범위한 비디오 훈련 후, V-JEPA는 복잡한 객체 상호작용을 이해할 수 있는 강력한 물리 세계 모델을 개발합니다. 르쿤이 2022년에 처음 제안한 V-JEPA는 지난해 출시된 I-JEPA 모델의 진화판으로, I-JEPA는 이미지에 중점을 두었습니다. V-JEPA는 영상 분석을 통해 시간적 측면을 활용하여 보다 일관된 표현을 발전시킵니다.
V-JEPA의 활용
기초 모델로서 V-JEPA는 여러 작업에 적응 가능한 다목적 시스템으로 기능합니다. 대부분의 ML 모델을 세밀하게 조정해야 하는 것과 달리, V-JEPA는 최소한의 라벨링된 예제를 필요로 하는 경량 딥러닝 모델의 입력으로 직접 사용할 수 있습니다. 이러한 아키텍처는 자원 효율성이 높고 관리하기도 쉽습니다.
이 기능은 로봇공학과 자율주행차와 같은 분야에서 매우 중요합니다. 시스템이 현실적인 세계 모델로 주변을 이해하고 탐색해야 하기 때문입니다. 르쿤은 "V-JEPA는 세계에 대한 보다 근본적인 이해를 향한 한 걸음으로, 기계가 일반화된 추론과 계획을 수행할 수 있게 한다"고 말했습니다.
진전을 이루었음에도 V-JEPA는 추가 개선의 여지가 있습니다. 현재 짧은 비디오 시퀀스에 대한 추론에서 뛰어나지만, 메타 연구팀의 다음 도전 과제는 그 시간적 범위를 확장하는 것입니다. 또한, JEPA와 자연 지능 간의 간극을 해소하기 위해 다중 모드 표현 실험도 계획하고 있습니다. 메타는 V-JEPA를 크리에이티브 커먼스 비상업적 라이선스하에 공개하여 연구 커뮤니티의 협력과 실험을 초대하고 있습니다.
AI의 풍경을 돌아보며 르쿤은 지능을 케이크에 비유했습니다. 자기 지도 학습이 가장 큰 부분을 형성하고, 지도 학습이 아이싱, 강화 학습이 위에 올려진 체리와 같다고 설명했습니다. 우리는 상당한 진전을 이루었지만, AI의 전체 잠재력을 탐험하기 시작한 단계에 불과합니다.