AI2 Melhora o Modelo OLMo de Código Aberto com um Conjunto de Dados Diversificado e um Currículo de Duas Etapas para Desempenho Aprimorado

Home Notícias de IA AI2 Melhora o Modelo OLMo de Código Aberto com um Conjunto de Dados Diversificado e um Currículo de Duas Etapas para Desempenho Aprimorado

Na quarta-feira, o Allen Institute for AI (AI2) lançou uma atualização para seu modelo de 7 bilhões de parâmetros, OLMo 1.7-7B. Esta versão aprimorada utiliza um conjunto de dados Dolma mais extenso e variado, além de um processo de treinamento avançado.

Originalmente apresentado em fevereiro, OLMo é descrito como um "modelo de linguagem de última geração realmente open-source", completo com dados de pré-treinamento abrangentes, código de treinamento, pesos do modelo e métricas de avaliação.

A atualização mais recente permite que o OLMo 1.7-7B suporte um tamanho de contexto maior, expandindo de 2.048 para 4.096 tokens, resultando em um desempenho aprimorado devido a técnicas de treinamento refinadas e melhorias arquitetônicas. O conjunto de dados Dolma 1.7 inclui impressionantes 2,3 trilhões de tokens provenientes de materiais diversos, como Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg e Wikipedia.

Anteriormente dependente do Dolma 1.5, que utilizava principalmente dados da web, o novo Dolma 1.7 melhora a capacidade do modelo de lidar com tarefas que exigem conhecimento especializado, raciocínio complexo e codificação, diversificando as fontes de dados. O AI2 implementou métodos de deduplicação melhorados para garantir a qualidade do conteúdo, removendo documentos com pontuação de duplicação acima de um limite predeterminado, calculado a partir de pontuações de duplicação em nível de parágrafo.

O Dolma 1.7 também introduz um sistema de filtragem de qualidade refinado. Um classificador FastText avalia documentos com base em sua qualidade, distinguindo conteúdos bem estruturados de materiais de menor qualidade. Fontes de alta qualidade incluem Wikipedia, feeds RSS da Small Web e Semantic Scholar, enquanto documentos de baixa qualidade incluem conteúdo adulto e sites de desinformação. Este classificador foi treinado com aproximadamente 25 GB de dados.

Além disso, o OLMo 1.7 emprega um currículo de treinamento em duas etapas. Inicialmente, os pesquisadores treinam o modelo desde o início. Na segunda etapa, o modelo é treinado ainda mais com um subconjunto selecionado do Dolma 1.7, utilizando mais 50 bilhões de tokens e reduzindo gradualmente a taxa de aprendizado até zero. O subconjunto de alta qualidade é formado incluindo todo o conteúdo disponível da Wikipedia, OpenWebMath e Flan, excluindo certas fontes e equilibrando as proporções dos conjuntos de dados restantes.

O AI2 afirma que essas melhorias permitem que o OLMo 1.7-7B supere tanto o Llama 2-7B no benchmark Massive Multitask Language Understanding (MMLU) quanto o Llama-2-13B no conjunto de dados GSM8K.

O modelo OLMo atualizado é licenciado sob Apache 2.0, enquanto o Dolma 1.7 está disponível sob ODC-BY. Ambos já estão acessíveis no Hugging Face.

Apresentando o Cisco Hypershield: Uma Abordagem Revolucionária para a Segurança na Era da IA

Atenção, Boston Dynamics! Mentee Robotics Lança Robô de Próxima Geração 'AI-First'

Most people like

Vexub

Transforme suas ideias em vídeos únicos com o Vexub, um gerador de vídeos por IA. Crie conteúdos cativantes com apenas alguns cliques. Experimente grátis!

Gerador de vídeos para TikTok AI Video Generator

Face26

203.7K

Eleve suas fotos sem esforço com o aprimorador de fotos gratuito da Face26. Melhore a qualidade da imagem, aguçe os detalhes e restitua a vivacidade às suas imagens em apenas alguns cliques.

melhorador de fotos AI Photo Enhancer

Tangia

146K

Eleve sua experiência de streaming potencializando o engajamento no chat!

engajamento de transmissão AI Speech Synthesis

Spur.Fit

18.8K

Apresentamos o Spur.Fit, a plataforma de treinamento pessoal com tecnologia de IA projetada especificamente para profissionais de fitness. Esta ferramenta inovadora capacita os treinadores a aprimorar seus serviços, otimizar a gestão de clientes e oferecer experiências de treino personalizadas como nunca antes.

assistente de IA AI Product Description Generator

Find AI tools in YBX