O chefe de IA da Meta, Yann LeCun, defende há muito tempo sistemas de aprendizado de máquina (ML) que podem explorar e entender seus ambientes de forma autônoma com mínima orientação humana. O mais recente avanço da Meta, o V-JEPA (Video Joint Embedding Predictive Architecture), avança em direção a esse objetivo ambicioso.
O V-JEPA tem como meta replicar as habilidades humanas e animais de prever como os objetos interagem, aprendendo representações abstratas a partir de gravações de vídeo brutas.
Como o V-JEPA Funciona
Considere um vídeo de uma bola voando em direção a uma parede; você espera que ela quique ao colidir. Essas observações básicas são fundamentais para nossa aprendizagem sobre o mundo desde o início da vida, muitas vezes antes de adquirirmos habilidades linguísticas. O V-JEPA utiliza uma abordagem semelhante chamada "aprendizado auto-supervisionado", eliminando a necessidade de dados rotulados por humanos. Durante o treinamento, o modelo recebe segmentos de vídeo com algumas partes mascaradas, o que o leva a prever o conteúdo oculto. O foco não é recriar cada pixel, mas identificar um conjunto compacto de características latentes que ilustram como os elementos na cena interagem. O V-JEPA compara suas previsões ao conteúdo real do vídeo, ajustando seus parâmetros com base nas discrepâncias.
Ao focar em representações latentes, o V-JEPA aprimora a estabilidade e eficiência do modelo. Em vez de se concentrar em uma tarefa única, ele é treinado em vídeos diversos que refletem a variabilidade do mundo real. Os pesquisadores implementaram uma estratégia de mascaramento especializada que estimula o modelo a compreender interações profundas entre objetos, em vez de atalhos superficiais.
Após um extenso treinamento em vídeo, o V-JEPA desenvolve um modelo robusto do mundo físico, capaz de entender interações complexas entre objetos. Proposto originalmente por LeCun em 2022, o V-JEPA é uma evolução do modelo I-JEPA, lançado no ano passado, que se concentrou em imagens. Em contraste, o V-JEPA analisa vídeos, aproveitando seu aspecto temporal para cultivar representações mais coerentes.
V-JEPA em Ação
Como um modelo básico, o V-JEPA serve como um sistema versátil que pode ser adaptado para diversas tarefas. Diferente da necessidade comum de ajustar a maioria dos modelos de ML, o V-JEPA pode ser utilizado diretamente como entrada para modelos de aprendizado profundo leves que exigem poucos exemplos rotulados para conectar suas representações a tarefas específicas, como classificação de imagens, classificação de ações e detecção de ações espaciotemporais. Essa arquitetura é não apenas eficiente em termos de recursos, mas também mais fácil de gerenciar.
Essa capacidade é inestimável em campos como robótica e carros autônomos, onde os sistemas precisam entender e navegar em seus ambientes com um modelo realista do mundo. “O V-JEPA é um passo em direção a uma compreensão mais fundamentada do mundo, permitindo que as máquinas se engajem em raciocínio e planejamento generalizados”, afirma LeCun.
Apesar de seus avanços, o V-JEPA ainda possui potencial para melhorias. Atualmente, ele se destaca no raciocínio sobre sequências de vídeo curtas, mas o próximo desafio para a equipe de pesquisa da Meta é estender seu horizonte temporal. Além disso, eles buscam aproximar o JEPA da inteligência natural, experimentando com representações multimodais. A Meta disponibilizou o V-JEPA sob uma licença Creative Commons Não Comercial, convidando colaboração e experimentação da comunidade de pesquisa.
Refletindo sobre o cenário da IA, LeCun comparou a inteligência a um bolo, onde o aprendizado auto-supervisionado forma a maior parte, o aprendizado supervisionado é a cobertura, e o aprendizado por reforço é a cereja do topo. Embora tenhamos feito progressos significativos, estamos apenas começando a descobrir o pleno potencial da IA.