Глава AI Meta Ян ЛеКун на протяжении долгого времени выступает за разработку систем машинного обучения (ML), способных автономно исследовать и понимать окружающий мир с минимальным участием человека. Последнее достижение компании, V-JEPA (Video Joint Embedding Predictive Architecture), приближает нас к этой амбициозной цели.
Основная задача V-JEPA заключается в том, чтобы воспроизвести способности человека и животных предсказывать взаимодействие объектов. Эта система обучается извлекать абстрактные представления из необработанных видеоматериалов.
Как работает V-JEPA
Представьте себе видео, где мяч летит к стене; вы ожидаете, что он отскочит при ударе. Эти базовые наблюдения формируют основы нашего восприятия мира на ранних этапах жизни, зачастую до овладения языком. V-JEPA использует подход, известный как "самостоятельное обучение", что устраняет необходимость в размеченных данных. Во время обучения модель получает видеосегменты с замазанными частями и должна предсказать скрытое содержимое. Она не пытается восстановить каждый пиксель; вместо этого идентифицирует компактный набор скрытых признаков, демонстрирующих взаимодействие элементов сцены. V-JEPA сравнивает свои предсказания с фактическим видеоконтентом, настраивая параметры в зависимости от несоответствий.
Сосредоточив внимание на скрытых представлениях, V-JEPA повышает стабильность и эффективность модели. Вместо того чтобы сфокусироваться на одной задаче, она обучается на разнообразных видео, отражающих вариативность реального мира. Исследователи внедрили специализированную стратегию маскирования, которая помогает модели понять глубокие взаимодействия объектов, а не полагаться на поверхностные упрощения.
После обширного обучения на видео V-JEPA формирует надежную модель физического мира, способную понимать сложные взаимодействия объектов. Изначально предложенная ЛеКуном в 2022 году, V-JEPA является развитием модели I-JEPA, выпущенной в прошлом году, которая сосредоточилась на изображениях. В отличие от нее, V-JEPA анализирует видео, используя их временной аспект для формирования более согласованных представлений.
V-JEPA в действии
Как основная модель, V-JEPA является универсальной системой, подходящей для различных задач. В отличие от большинства моделей ML, требующих тонкой настройки, V-JEPA может использоваться напрямую в легковесных глубоких нейронных моделях, которые нуждаются в минимальном количестве размеченных примеров для связи ее представлений с конкретными задачами, такими как классификация изображений, классификация действий и пространственно-временное обнаружение действий. Эта архитектура не только эффективна по ресурсам, но и проще в управлении.
Эта способность оказывается жизненно важной в таких областях, как робототехника и автономные автомобили, где системам необходимо понимать и ориентироваться в своих окружающих условиях с реалистичной моделью мира.
"V-JEPA — это шаг к более глубокому пониманию мира, позволяющий машинам заниматься обобщенным рассуждением и планированием", — говорит ЛеКун.
Несмотря на свои достижения, V-JEPA имеет потенциал для дальнейшего совершенствования. В настоящее время она отлично справляется с анализом коротких видео, но следующей задачей для исследовательской группы Meta является расширение временного горизонта. Кроме того, они планируют сблизить JEPA с естественным интеллектом, экспериментируя с мультимодальными представлениями. Meta сделала V-JEPA доступной по лицензии Creative Commons NonCommercial, приглашая к сотрудничеству и экспериментам научное сообщество.
Рассуждая о ландшафте AI, ЛеКун сравнил интеллект с тортом, где самостоятельно обучаемое обучение составляет наибольшую часть, тогда как контролируемое обучение — это глазурь, а обучение с подкреплением — вишенка на торте.
Хотя мы сделали значительные шаги вперед, мы лишь начинаем раскрывать полный потенциал AI.