À medida que pesquisadores e empresas de IA se empenham em desenvolver modelos de aprendizado de máquina maiores e mais eficazes, o desafio de curar conjuntos de dados adequados se intensifica. Para enfrentar essa questão, pesquisadores da Meta AI, Google, INRIA e Université Paris Saclay apresentaram uma nova técnica de curadoria automática para conjuntos de dados de alta qualidade, especialmente para aprendizado auto-supervisionado (SSL).
Aprimorando o Equilíbrio dos Conjuntos de Dados no Aprendizado Auto-Supervisionado
O aprendizado auto-supervisionado desempenha um papel crucial na IA contemporânea, alimentando sistemas que vão de grandes modelos de linguagem a aplicações especializadas, como imagens médicas. Ao contrário do aprendizado supervisionado, que depende de exemplos de treinamento anotados, o SSL utiliza dados não rotulados, permitindo que modelos e conjuntos de dados escalem com informações brutas.
A qualidade dos dados impacta significativamente o desempenho dos modelos de SSL. Conjuntos de dados coletados aleatoriamente da internet geralmente apresentam distribuições desequilibradas, onde conceitos dominantes ofuscam conceitos mais raros, resultando em viés nos modelos e dificuldade em generalizar efetivamente. Segundo os pesquisadores, "os conjuntos de dados para aprendizado auto-supervisionado devem ser grandes, diversos e equilibrados." Eles destacam a necessidade de conjuntos de dados curados que incorporam essas qualidades, sugerindo que subconjuntos equilibrados sejam formados a partir de extensos repositórios de dados online.
Atualmente, um esforço manual considerável é investido na curadoria de conjuntos de dados equilibrados para SSL. Embora menos demorada do que rotular cada instância, esse processo ainda representa um gargalo para o treinamento de modelos em larga escala.
Técnica Automática de Curadoria de Conjuntos de Dados
Para agilizar esse processo, os pesquisadores propuseram um método de curadoria automática que produz conjuntos de dados de treinamento equilibrados a partir de dados brutos. Sua técnica utiliza modelos de embedding e algoritmos de clustering para destacar conceitos sub-representados nos dados.
O processo começa com um modelo de extração de características que computa embeddings—representações numéricas que capturam as características semânticas de vários tipos de dados, incluindo imagens, áudio e texto. Em seguida, utilizando clustering k-means, os pesquisadores agrupam pontos de dados com base em similaridades, atualizando iterativamente os centroides dos grupos para formar clusters de exemplos relacionados.
O clustering k-means tradicional muitas vezes resulta em um excesso de grupos para conceitos amplamente representados. Para resolver isso, os pesquisadores implementaram um método de k-means hierárquico em múltiplas etapas que constrói clusters de forma ascendente. Essa abordagem inovadora aplica simultaneamente k-means aos níveis de cluster anteriores durante cada nova etapa de clustering, garantindo representação equilibrada em todos os estágios.
Essa abordagem hierárquica permite um clustering abrangente, preservando exemplos menos representados à medida que o algoritmo evolui para clusters de nível superior mais descritivos. Os pesquisadores descrevem essa técnica como um "algoritmo de curadoria genérico, indiferente a tarefas futuras", permitindo a extração de propriedades significativas dos dados não curados, independentemente das especificidades da aplicação.
Avaliação de Conjuntos de Dados Auto-Curados
Os pesquisadores realizaram extensos experimentos utilizando modelos de visão computacional treinados com conjuntos de dados curados por meio de clustering hierárquico, utilizando imagens sem rótulos manuais. Seus resultados indicam que o treinamento em conjuntos de dados automaticamente curados melhorou o desempenho em benchmarks de classificação de imagens, especialmente para exemplos fora da distribuição, e aprimorou significativamente o desempenho de recuperação. Notavelmente, modelos treinados nesses conjuntos se mostraram comparáveis aos treinados em conjuntos de dados curados manualmente, que exigem substanciais recursos humanos.
Esse algoritmo também foi aplicado com sucesso a dados textuais para treinamento de grandes modelos de linguagem e imagens de satélite para previsão de altura de dossel, resultando em melhorias impressionantes em vários benchmarks. Significativamente, seus experimentos mostram que modelos treinados em conjuntos de dados bem equilibrados podem competir com modelos de ponta, enquanto utilizam menos exemplos.
A introdução dessa técnica automática de curadoria de conjuntos de dados tem implicações profundas para o aprendizado de máquina aplicado, especialmente em indústrias onde dados curados são escassos. Este método pode reduzir drasticamente os custos associados à anotação de dados e à curadoria para SSL, permitindo que modelos bem treinados sejam ajustados para tarefas de aprendizado supervisionado com mínimas informações rotuladas.
Além disso, empresas como Meta e Google, que detêm vastas quantidades de dados brutos não processados, têm muito a ganhar. Os pesquisadores afirmam que "a curadoria automática de conjuntos de dados será cada vez mais importante nas futuras linhas de treinamento."