Com a crescente expectativa em torno das capacidades do novo GPT-4o-mini, a Apple ampliou sua coleção de modelos compactos de IA com o lançamento de vários modelos de DataComp para Modelos de Linguagem (DCLM) na Hugging Face. O pacote inclui dois modelos significativos: um com 7 bilhões de parâmetros e outro com 1,4 bilhão. Ambos se destacam em testes de benchmark, especialmente o modelo maior, que supera o Mistral-7B e se aproxima rapidamente do desempenho de outros modelos abertos líderes, como Llama 3 e Gemma.
Vaishaal Shankar, da equipe de ML da Apple, descreve esses modelos como as "melhores opções de código aberto" disponíveis. Este projeto abraçou completamente os princípios de código aberto ao liberar pesos de modelo, código de treinamento e o conjunto de dados de pré-treinamento.
Visão Geral dos Modelos DCLM da Apple
O projeto DataComp é uma iniciativa colaborativa entre pesquisadores da Apple, Universidade de Washington, Universidade de Tel Aviv e Instituto de Pesquisa Toyota. Seu objetivo é criar conjuntos de dados de alta qualidade para o treinamento de modelos de IA, especialmente na área multimodal. A equipe utiliza uma estrutura padronizada com arquiteturas de modelos fixas, códigos de treinamento, hiperparâmetros e avaliações para testar diversas estratégias de curadoria de dados, otimizando o desempenho dos modelos.
Experimentos iniciais mostraram que a filtragem baseada em modelos – onde modelos de aprendizado de máquina filtram e selecionam dados de alta qualidade a partir de conjuntos amplos – desempenha um papel crucial na montagem de conjuntos de treinamento superiores. Utilizando essa técnica de curadoria, a equipe desenvolveu o conjunto de dados DCLM-Baseline, que foi fundamental para treinar os modelos de transformador com 7 bilhões e 1,4 bilhões de parâmetros do zero.
O modelo de 7B, treinado com 2,5 trilhões de tokens usando receitas de pré-treinamento do OpenLM, possui uma janela de contexto de 2K e alcança uma precisão de 63,7% em 5-shots no benchmark MMLU. Isso representa uma melhoria de 6,6 pontos percentuais em relação ao MAP-Neo, o anterior líder em modelos de linguagem de dados abertos, enquanto utilizou 40% menos potência computacional durante o treinamento.
Seu desempenho no MMLU está em estreita proximidade com modelos líderes que apresentam pesos abertos, mas dados fechados, como Mistral-7B-v0.3 (62,7%), Llama3 8B (66,2%), Gemma do Google (64,3%) e Phi-3 da Microsoft (69,9%). Além disso, quando os pesquisadores ampliaram o contexto do modelo para 8K e realizaram mais 100 bilhões de iterações de treinamento utilizando a técnica de Decomposição de Conjunto de Dados, observaram melhorias adicionais de desempenho nos benchmarks Core e Extended, embora os resultados do MMLU tenham permanecido consistentes.
“Nossas descobertas ressaltam a importância do design do conjunto de dados no treinamento de modelos de linguagem e servem como base para pesquisas em andamento na curadoria de dados”, afirmaram os pesquisadores em um artigo sobre DataComp-LM.
Desempenho Impressionante do Modelo Menor
Semelhante ao DCLM-7B, o modelo menor de 1,4B – desenvolvido em colaboração com o Instituto de Pesquisa Toyota usando 2,6 trilhões de tokens – também apresenta desempenho notável nos testes MMLU, Core e Extended. Na avaliação 5-shot MMLU, obteve 41,9%, superando outros modelos em sua categoria, incluindo o SmolLM da Hugging Face, que teve uma pontuação de 39,97%. O Qwen-1.5B e o Phi-1.5B seguiram com pontuações de 37,87% e 35,90%, respectivamente.
Atualmente, o modelo de 7B está disponível sob a Licença de Código de Amostra da Apple, enquanto o modelo de 1,4B foi lançado sob a licença Apache 2.0, permitindo uso comercial, distribuição e modificação. Além disso, uma versão ajustada do modelo de 7B está disponível na biblioteca Hugging Face.
É importante destacar que este lançamento representa uma pesquisa inicial enfatizando a eficácia da curadoria de dados. Esses modelos não são projetados para dispositivos Apple e podem apresentar preconceitos derivados de seus conjuntos de dados de treinamento ou produzir respostas potencialmente prejudiciais.