Os Modelos de IA de Código Aberto Molmo da Ai2 Superam o GPT-4o e o Claude em Principais Avaliações

O Allen Institute for AI (Ai2) lançou oficialmente o Molmo, um conjunto de modelos de IA multimodal de código aberto que supera os principais concorrentes proprietários, incluindo o GPT-4o da OpenAI, o Claude 3.5 Sonnet da Anthropic e o Gemini 1.5 do Google, em vários benchmarks de terceiros.

Como modelos multimodais, o Molmo pode analisar imagens e arquivos, semelhante aos principais modelos de fundação proprietários. Notavelmente, o Ai2 afirma que o Molmo utiliza "1000x menos dados" que seus equivalentes proprietários, graças a métodos inovadores de treinamento detalhados em um novo relatório técnico publicado pela empresa fundada por Paul Allen e liderada por Ali Farhadi.

O Ai2 também compartilhou um vídeo demonstração no YouTube, mostrando como o Molmo opera em smartphones para analisar cenas ao vivo de forma eficiente. Os usuários podem simplesmente tirar uma foto para processamento imediato — exemplos incluem contagem de pessoas, identificação de itens veganos no menu, interpretação de panfletos, distinção entre bandas de música eletrônica e conversão de anotações manuscritas de quadros brancos em tabelas estruturadas.

Esse lançamento reflete o compromisso do Ai2 em fomentar a pesquisa aberta, oferecendo modelos de alto desempenho, com pesos e dados acessíveis, para a comunidade em geral e empresas que buscam soluções personalizáveis. O Molmo segue a recente introdução do OLMoE, um modelo econômico que utiliza uma arquitetura de "mistura de especialistas".

Variantes do Modelo e Desempenho

O Molmo é composto por quatro modelos principais com diferentes tamanhos de parâmetros e capacidades:

- Molmo-72B: O modelo principal com 72 bilhões de parâmetros, baseado no Qwen2-72B da Alibaba Cloud.

- Molmo-7B-D: Um modelo de demonstração derivado do Qwen2-7B da Alibaba.

- Molmo-7B-O: Baseado no OLMo-7B do Ai2.

- MolmoE-1B: Um modelo focado em eficiência, quase igualando o desempenho do GPT-4V em benchmarks acadêmicos e preferências dos usuários.

Esses modelos demonstram capacidades impressionantes em vários benchmarks de terceiros, superando consistentemente muitas alternativas proprietárias. Todos os modelos estão disponíveis sob licenças permissivas Apache 2.0, permitindo ampla pesquisa e uso comercial.

O Molmo-72B se destaca em avaliações acadêmicas, alcançando as maiores pontuações em 11 benchmarks principais e ocupando o segundo lugar em preferência dos usuários, logo atrás do GPT-4o. O defensor de desenvolvedores de machine learning, Vaibhav Srivastav, da Hugging Face, enfatizou que o Molmo estabelece uma alternativa sólida aos sistemas fechados, elevando o padrão para a IA multimodal aberta. Além disso, o pesquisador de robótica do Google DeepMind, Ted Xiao, elogiou a incorporação de dados de apontamento pelo Molmo, um avanço vital para a ancoragem visual em robótica, melhorando a interação com ambientes físicos.

Arquitetura Avançada e Treinamento

A arquitetura do Molmo é projetada para eficiência e desempenho ideais. Cada modelo utiliza o modelo de visão ViT-L/14 336px da OpenAI como codificador visual, transformando imagens de múltiplas escalas em tokens de visão. Esses tokens são processados por meio de um conector de perceptron multicamadas (MLP) antes de serem integrados ao modelo de linguagem.

O protocolo de treinamento consiste em duas etapas cruciais:

- Pré-treinamento Multimodal: Os modelos são treinados para gerar legendas a partir de descrições detalhadas de imagens fornecidas por anotadores humanos, utilizando um conjunto de dados de alta qualidade conhecido como PixMo.

- Ajuste Supervisionado: Os modelos são ajustados em um conjunto de dados diversificado que inclui benchmarks acadêmicos e conjuntos de dados recém-desenvolvidos, preparando-os para tarefas complexas como leitura de documentos e raciocínio visual.

Ao contrário de muitos modelos contemporâneos, o Molmo não depende de aprendizado por reforço a partir de feedback humano (RLHF), utilizando em vez disso um pipeline de treinamento precisamente calibrado que atualiza todos os parâmetros com base em estados de pré-treinamento.

Desempenho em Benchmark

Os modelos Molmo apresentam resultados notáveis em diversos benchmarks, superando notavelmente modelos proprietários. Por exemplo, o Molmo-72B pontua 96,3 no DocVQA e 85,5 no TextVQA, superando tanto o Gemini 1.5 Pro quanto o Claude 3.5 Sonnet. Ele também se destaca no Ai2D, com uma pontuação de 96,3, a mais alta entre todas as famílias de modelos.

Destaca-se que o Molmo-72B brilha em tarefas de ancoragem visual, alcançando as melhores pontuações no RealWorldQA, tornando-se um candidato promissor para robótica e aplicações complexas de raciocínio multimodal.

Acesso Aberto e Desenvolvimentos Futuros

O Ai2 disponibilizou esses modelos e conjuntos de dados gratuitamente em seu espaço no Hugging Face, garantindo compatibilidade com frameworks populares de IA, como Transformers. Esta iniciativa faz parte da missão do Ai2 de promover inovação e colaboração dentro da comunidade de IA.

Nos próximos meses, o Ai2 planeja lançar modelos adicionais, códigos de treinamento e um relatório técnico expandido, ampliando ainda mais os recursos disponíveis para pesquisadores. Para aqueles interessados nas capacidades do Molmo, uma demonstração pública e pontos de verificação do modelo estão agora disponíveis na página oficial do Molmo.

Most people like

Find AI tools in YBX