O Novo Modelo Econômico da AI2: Soluções Abertas e Poderosas para Todos

Home Notícias de IA O Novo Modelo Econômico da AI2: Soluções Abertas e Poderosas para Todos

Updated on setembro 9 2024

O Allen Institute for AI (AI2), em colaboração com a Contextual AI, lançou um inovador modelo de linguagem de código aberto chamado OLMoE. Este modelo visa equilibrar desempenho robusto com custo-efetividade.

OLMoE apresenta uma arquitetura de mistura esparsa de especialistas (MoE), composta por 7 bilhões de parâmetros, utilizando apenas 1 bilhão de parâmetros para cada token de entrada. Ele está disponível em duas versões: OLMoE-1B-7B para uso geral e OLMoE-1B-7B-Instruct para ajuste de instruções.

Diferentemente de muitos outros modelos de MoE, OLMoE é totalmente de código aberto. A AI2 destaca os desafios no acesso a outros modelos de MoE, que frequentemente carecem de transparência em relação aos dados de treinamento, código ou métodos de construção. “A maioria dos modelos de MoE não é de código aberto, oferecendo insights limitados sobre seus dados de treinamento ou metodologias, o que dificulta o desenvolvimento de MoEs abertos e eficientes que possam rivalizar com modelos fechados”, afirma o AI2 em seu artigo. Essa falta de acessibilidade representa uma barreira significativa para pesquisadores e acadêmicos.

Nathan Lambert, cientista de pesquisa da AI2, mencionou no X (antigo Twitter) que OLMoE poderia apoiar o desenvolvimento de políticas, servindo como uma ferramenta fundamental à medida que os clusters acadêmicos H100 se tornam disponíveis. Ele enfatizou o compromisso da AI2 em lançar modelos de código aberto competitivos, afirmando: “Aprimoramos nossa infraestrutura e dados sem alterar nossos objetivos centrais. Este modelo é, de fato, de ponta, não apenas o melhor em algumas avaliações.”

Desenvolvimento do OLMoE

Na criação do OLMoE, a AI2 adotou uma abordagem de roteamento detalhada, utilizando 64 pequenos especialistas, ativando apenas oito por vez. Essa configuração gerou um desempenho comparável a outros modelos, mas reduziu significativamente os custos de inferência e as necessidades de memória.

OLMoE baseia-se no modelo de código aberto anterior da AI2, OLMO 1.7-7B, que suportava uma janela de contexto de 4.096 tokens, utilizando um conjunto de dados de treinamento chamado Dolma 1.7. Para seu treinamento, OLMoE incorporou um conjunto de dados diversificado, incluindo subconjuntos do Common Crawl, Dolma CC, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg e Wikipedia.

A AI2 afirma que OLMoE “supera todos os modelos existentes com parâmetros ativos semelhantes, superando até mesmo modelos maiores como Llama2-13B-Chat e DeepSeekMoE-16B.” Os resultados de benchmark indicam que OLMoE-1B-7B frequentemente compete de perto com modelos que possuem 7 bilhões de parâmetros ou mais, como Mistral-7B, Llama 3.1-B e Gemma 2. Em testes contra modelos de 1 bilhão de parâmetros, OLMoE-1B-7B superou significativamente outros modelos de código aberto, incluindo Pythia, TinyLlama e até mesmo o próprio OLMO da AI2.

A Necessidade de MoEs de Código Aberto

A missão da AI2 inclui aumentar a acessibilidade a modelos de IA totalmente de código aberto, especialmente dentro da arquitetura MoE, que se torna cada vez mais popular. Muitos desenvolvedores estão adotando sistemas MoE, como demonstrado pelo Mixtral 8x22B da Mistral e o Grok da X.ai, com especulações sobre a utilização de MoE no GPT-4. No entanto, a AI2 e a Contextual AI apontam que muitos modelos de IA existentes carecem de transparência abrangente sobre seus dados de treinamento e bases de código.

A AI2 sublinha a necessidade de abertura em modelos de MoE, que introduzem desafios de design únicos, como a determinação da proporção de parâmetros totais para ativos, a escolha entre numerosos pequenos especialistas ou menos grandes, o compartilhamento de especialistas e a seleção de algoritmos de roteamento apropriados.

Além disso, a Open Source Initiative está ativamente abordando o que constitui abertura para modelos de IA, destacando a importância da transparência para o avanço do campo.

ServiceNow Lança Biblioteca de Agentes de IA Empresarial Personalizável, Adaptada às Suas Necessidades de Fluxo de Trabalho

LightEval: Uma Ferramenta Open Source da Hugging Face para Aumentar a Responsabilidade da Inteligência Artificial

Most people like

aicut

62.7K

Transforme seu texto em conteúdo visual atraente em poucos minutos. Se você deseja engajar seu público nas redes sociais ou criar clipes envolventes para marketing, tornamos o processo rápido e fácil. Desperte o poder do vídeo ao transformar materiais escritos em histórias visuais dinâmicas de forma simples.

Criador de vídeo de IA Text to Video

Babble AI

14.6K

Babble AI utiliza o poder do Chat GPT para desenvolver chatbots inteligentes, facilitando interações naturais e fluidas que aprimoram o engajamento dos clientes.

chatbot AI Chatbot

MagicSoul.ai

Participe de conversas cativantes com personagens de IA avançada que utilizam memória de longo prazo para interações mais profundas e significativas. Viva o futuro do diálogo, onde a IA recorda suas preferências e discussões anteriores, criando uma experiência de bate-papo personalizada e imersiva.

personagens de IA AI Chatbot

Devv AI Search Engine

464.1K

Apresentando o Motor de Busca de IA Focado no Desenvolvedor, uma poderosa ferramenta projetada especificamente para programadores e desenvolvedores. Esta plataforma inovadora revoluciona a maneira como você encontra e utiliza recursos de programação, documentação e soluções técnicas. Aproveitando inteligência artificial avançada, nosso motor de busca oferece resultados precisos adaptados às suas necessidades de programação, aumentando sua produtividade e aprimorando seu processo de desenvolvimento. Descubra o futuro da programação com nosso intuitivo motor de busca movido por IA, elaborado para capacitar desenvolvedores em todos os níveis.

Motor de busca AI Other

Find AI tools in YBX