Na quarta-feira, o Allen Institute for AI (AI2) lançou uma atualização para seu modelo de 7 bilhões de parâmetros, OLMo 1.7-7B. Esta versão aprimorada utiliza um conjunto de dados Dolma mais extenso e variado, além de um processo de treinamento avançado.
Originalmente apresentado em fevereiro, OLMo é descrito como um "modelo de linguagem de última geração realmente open-source", completo com dados de pré-treinamento abrangentes, código de treinamento, pesos do modelo e métricas de avaliação.
A atualização mais recente permite que o OLMo 1.7-7B suporte um tamanho de contexto maior, expandindo de 2.048 para 4.096 tokens, resultando em um desempenho aprimorado devido a técnicas de treinamento refinadas e melhorias arquitetônicas. O conjunto de dados Dolma 1.7 inclui impressionantes 2,3 trilhões de tokens provenientes de materiais diversos, como Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg e Wikipedia.
Anteriormente dependente do Dolma 1.5, que utilizava principalmente dados da web, o novo Dolma 1.7 melhora a capacidade do modelo de lidar com tarefas que exigem conhecimento especializado, raciocínio complexo e codificação, diversificando as fontes de dados. O AI2 implementou métodos de deduplicação melhorados para garantir a qualidade do conteúdo, removendo documentos com pontuação de duplicação acima de um limite predeterminado, calculado a partir de pontuações de duplicação em nível de parágrafo.
O Dolma 1.7 também introduz um sistema de filtragem de qualidade refinado. Um classificador FastText avalia documentos com base em sua qualidade, distinguindo conteúdos bem estruturados de materiais de menor qualidade. Fontes de alta qualidade incluem Wikipedia, feeds RSS da Small Web e Semantic Scholar, enquanto documentos de baixa qualidade incluem conteúdo adulto e sites de desinformação. Este classificador foi treinado com aproximadamente 25 GB de dados.
Além disso, o OLMo 1.7 emprega um currículo de treinamento em duas etapas. Inicialmente, os pesquisadores treinam o modelo desde o início. Na segunda etapa, o modelo é treinado ainda mais com um subconjunto selecionado do Dolma 1.7, utilizando mais 50 bilhões de tokens e reduzindo gradualmente a taxa de aprendizado até zero. O subconjunto de alta qualidade é formado incluindo todo o conteúdo disponível da Wikipedia, OpenWebMath e Flan, excluindo certas fontes e equilibrando as proporções dos conjuntos de dados restantes.
O AI2 afirma que essas melhorias permitem que o OLMo 1.7-7B supere tanto o Llama 2-7B no benchmark Massive Multitask Language Understanding (MMLU) quanto o Llama-2-13B no conjunto de dados GSM8K.
O modelo OLMo atualizado é licenciado sob Apache 2.0, enquanto o Dolma 1.7 está disponível sob ODC-BY. Ambos já estão acessíveis no Hugging Face.