AI2 Melhora o Modelo OLMo de Código Aberto com um Conjunto de Dados Diversificado e um Currículo de Duas Etapas para Desempenho Aprimorado

Home Notícias de IA AI2 Melhora o Modelo OLMo de Código Aberto com um Conjunto de Dados Diversificado e um Currículo de Duas Etapas para Desempenho Aprimorado

Na quarta-feira, o Allen Institute for AI (AI2) lançou uma atualização para seu modelo de 7 bilhões de parâmetros, OLMo 1.7-7B. Esta versão aprimorada utiliza um conjunto de dados Dolma mais extenso e variado, além de um processo de treinamento avançado.

Originalmente apresentado em fevereiro, OLMo é descrito como um "modelo de linguagem de última geração realmente open-source", completo com dados de pré-treinamento abrangentes, código de treinamento, pesos do modelo e métricas de avaliação.

A atualização mais recente permite que o OLMo 1.7-7B suporte um tamanho de contexto maior, expandindo de 2.048 para 4.096 tokens, resultando em um desempenho aprimorado devido a técnicas de treinamento refinadas e melhorias arquitetônicas. O conjunto de dados Dolma 1.7 inclui impressionantes 2,3 trilhões de tokens provenientes de materiais diversos, como Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg e Wikipedia.

Anteriormente dependente do Dolma 1.5, que utilizava principalmente dados da web, o novo Dolma 1.7 melhora a capacidade do modelo de lidar com tarefas que exigem conhecimento especializado, raciocínio complexo e codificação, diversificando as fontes de dados. O AI2 implementou métodos de deduplicação melhorados para garantir a qualidade do conteúdo, removendo documentos com pontuação de duplicação acima de um limite predeterminado, calculado a partir de pontuações de duplicação em nível de parágrafo.

O Dolma 1.7 também introduz um sistema de filtragem de qualidade refinado. Um classificador FastText avalia documentos com base em sua qualidade, distinguindo conteúdos bem estruturados de materiais de menor qualidade. Fontes de alta qualidade incluem Wikipedia, feeds RSS da Small Web e Semantic Scholar, enquanto documentos de baixa qualidade incluem conteúdo adulto e sites de desinformação. Este classificador foi treinado com aproximadamente 25 GB de dados.

Além disso, o OLMo 1.7 emprega um currículo de treinamento em duas etapas. Inicialmente, os pesquisadores treinam o modelo desde o início. Na segunda etapa, o modelo é treinado ainda mais com um subconjunto selecionado do Dolma 1.7, utilizando mais 50 bilhões de tokens e reduzindo gradualmente a taxa de aprendizado até zero. O subconjunto de alta qualidade é formado incluindo todo o conteúdo disponível da Wikipedia, OpenWebMath e Flan, excluindo certas fontes e equilibrando as proporções dos conjuntos de dados restantes.

O AI2 afirma que essas melhorias permitem que o OLMo 1.7-7B supere tanto o Llama 2-7B no benchmark Massive Multitask Language Understanding (MMLU) quanto o Llama-2-13B no conjunto de dados GSM8K.

O modelo OLMo atualizado é licenciado sob Apache 2.0, enquanto o Dolma 1.7 está disponível sob ODC-BY. Ambos já estão acessíveis no Hugging Face.

Apresentando o Cisco Hypershield: Uma Abordagem Revolucionária para a Segurança na Era da IA

Atenção, Boston Dynamics! Mentee Robotics Lança Robô de Próxima Geração 'AI-First'

Most people like

GPTBots.ai

49.1K

Plataforma de Bot de IA Revolucionária Projetada para Empresas

chatbot AI Chatbot

Geleza

5.6K

Descubra a plataforma tudo-em-um ideal para estudantes, empresas e criadores. Otimize seu fluxo de trabalho e libere seu potencial em um único ambiente coeso, projetado para atender a diversas necessidades.

Outro AI Tools Directory

HitPaw Edimakor

2.4M

Apresentamos um editor de vídeo com IA equipado com recursos de ponta projetados para elevar sua experiência de produção de vídeos. Esta ferramenta inovadora aproveita o poder da inteligência artificial para simplificar o processo de edição, permitindo que você crie vídeos impressionantes com facilidade. Seja você um criador de conteúdo, um profissional de marketing ou um cineasta, nosso avançado editor de vídeo simplifica tarefas complexas e aprimora suas capacidades de edição, permitindo que você se concentre em contar sua história. Descubra o futuro da edição de vídeo e transforme sua visão criativa em realidade.

Edição de vídeo AI Video Editor

Query Search

1.6M

Descubra soluções de desenvolvimento inovadoras através do poder da linguagem natural.

desenvolvimento AI Code Assistant

Find AI tools in YBX