O Allen Institute for AI (AI2), em colaboração com a Contextual AI, lançou um inovador modelo de linguagem de código aberto chamado OLMoE. Este modelo visa equilibrar desempenho robusto com custo-efetividade.
OLMoE apresenta uma arquitetura de mistura esparsa de especialistas (MoE), composta por 7 bilhões de parâmetros, utilizando apenas 1 bilhão de parâmetros para cada token de entrada. Ele está disponível em duas versões: OLMoE-1B-7B para uso geral e OLMoE-1B-7B-Instruct para ajuste de instruções.
Diferentemente de muitos outros modelos de MoE, OLMoE é totalmente de código aberto. A AI2 destaca os desafios no acesso a outros modelos de MoE, que frequentemente carecem de transparência em relação aos dados de treinamento, código ou métodos de construção. “A maioria dos modelos de MoE não é de código aberto, oferecendo insights limitados sobre seus dados de treinamento ou metodologias, o que dificulta o desenvolvimento de MoEs abertos e eficientes que possam rivalizar com modelos fechados”, afirma o AI2 em seu artigo. Essa falta de acessibilidade representa uma barreira significativa para pesquisadores e acadêmicos.
Nathan Lambert, cientista de pesquisa da AI2, mencionou no X (antigo Twitter) que OLMoE poderia apoiar o desenvolvimento de políticas, servindo como uma ferramenta fundamental à medida que os clusters acadêmicos H100 se tornam disponíveis. Ele enfatizou o compromisso da AI2 em lançar modelos de código aberto competitivos, afirmando: “Aprimoramos nossa infraestrutura e dados sem alterar nossos objetivos centrais. Este modelo é, de fato, de ponta, não apenas o melhor em algumas avaliações.”
Desenvolvimento do OLMoE
Na criação do OLMoE, a AI2 adotou uma abordagem de roteamento detalhada, utilizando 64 pequenos especialistas, ativando apenas oito por vez. Essa configuração gerou um desempenho comparável a outros modelos, mas reduziu significativamente os custos de inferência e as necessidades de memória.
OLMoE baseia-se no modelo de código aberto anterior da AI2, OLMO 1.7-7B, que suportava uma janela de contexto de 4.096 tokens, utilizando um conjunto de dados de treinamento chamado Dolma 1.7. Para seu treinamento, OLMoE incorporou um conjunto de dados diversificado, incluindo subconjuntos do Common Crawl, Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg e Wikipedia.
A AI2 afirma que OLMoE “supera todos os modelos existentes com parâmetros ativos semelhantes, superando até mesmo modelos maiores como Llama2-13B-Chat e DeepSeekMoE-16B.” Os resultados de benchmark indicam que OLMoE-1B-7B frequentemente compete de perto com modelos que possuem 7 bilhões de parâmetros ou mais, como Mistral-7B, Llama 3.1-B e Gemma 2. Em testes contra modelos de 1 bilhão de parâmetros, OLMoE-1B-7B superou significativamente outros modelos de código aberto, incluindo Pythia, TinyLlama e até mesmo o próprio OLMO da AI2.
A Necessidade de MoEs de Código Aberto
A missão da AI2 inclui aumentar a acessibilidade a modelos de IA totalmente de código aberto, especialmente dentro da arquitetura MoE, que se torna cada vez mais popular. Muitos desenvolvedores estão adotando sistemas MoE, como demonstrado pelo Mixtral 8x22B da Mistral e o Grok da X.ai, com especulações sobre a utilização de MoE no GPT-4. No entanto, a AI2 e a Contextual AI apontam que muitos modelos de IA existentes carecem de transparência abrangente sobre seus dados de treinamento e bases de código.
A AI2 sublinha a necessidade de abertura em modelos de MoE, que introduzem desafios de design únicos, como a determinação da proporção de parâmetros totais para ativos, a escolha entre numerosos pequenos especialistas ou menos grandes, o compartilhamento de especialistas e a seleção de algoritmos de roteamento apropriados.
Além disso, a Open Source Initiative está ativamente abordando o que constitui abertura para modelos de IA, destacando a importância da transparência para o avanço do campo.