Os Modelos de IA de Código Aberto Molmo da Ai2 Superam o GPT-4o e o Claude em Principais Avaliações

Home Notícias de IA Os Modelos de IA de Código Aberto Molmo da Ai2 Superam o GPT-4o e o Claude em Principais Avaliações

Updated on setembro 25 2024

O Allen Institute for AI (Ai2) lançou oficialmente o Molmo, um conjunto de modelos de IA multimodal de código aberto que supera os principais concorrentes proprietários, incluindo o GPT-4o da OpenAI, o Claude 3.5 Sonnet da Anthropic e o Gemini 1.5 do Google, em vários benchmarks de terceiros.

Como modelos multimodais, o Molmo pode analisar imagens e arquivos, semelhante aos principais modelos de fundação proprietários. Notavelmente, o Ai2 afirma que o Molmo utiliza "1000x menos dados" que seus equivalentes proprietários, graças a métodos inovadores de treinamento detalhados em um novo relatório técnico publicado pela empresa fundada por Paul Allen e liderada por Ali Farhadi.

O Ai2 também compartilhou um vídeo demonstração no YouTube, mostrando como o Molmo opera em smartphones para analisar cenas ao vivo de forma eficiente. Os usuários podem simplesmente tirar uma foto para processamento imediato — exemplos incluem contagem de pessoas, identificação de itens veganos no menu, interpretação de panfletos, distinção entre bandas de música eletrônica e conversão de anotações manuscritas de quadros brancos em tabelas estruturadas.

Esse lançamento reflete o compromisso do Ai2 em fomentar a pesquisa aberta, oferecendo modelos de alto desempenho, com pesos e dados acessíveis, para a comunidade em geral e empresas que buscam soluções personalizáveis. O Molmo segue a recente introdução do OLMoE, um modelo econômico que utiliza uma arquitetura de "mistura de especialistas".

Variantes do Modelo e Desempenho

O Molmo é composto por quatro modelos principais com diferentes tamanhos de parâmetros e capacidades:

- Molmo-72B: O modelo principal com 72 bilhões de parâmetros, baseado no Qwen2-72B da Alibaba Cloud.

- Molmo-7B-D: Um modelo de demonstração derivado do Qwen2-7B da Alibaba.

- Molmo-7B-O: Baseado no OLMo-7B do Ai2.

- MolmoE-1B: Um modelo focado em eficiência, quase igualando o desempenho do GPT-4V em benchmarks acadêmicos e preferências dos usuários.

Esses modelos demonstram capacidades impressionantes em vários benchmarks de terceiros, superando consistentemente muitas alternativas proprietárias. Todos os modelos estão disponíveis sob licenças permissivas Apache 2.0, permitindo ampla pesquisa e uso comercial.

O Molmo-72B se destaca em avaliações acadêmicas, alcançando as maiores pontuações em 11 benchmarks principais e ocupando o segundo lugar em preferência dos usuários, logo atrás do GPT-4o. O defensor de desenvolvedores de machine learning, Vaibhav Srivastav, da Hugging Face, enfatizou que o Molmo estabelece uma alternativa sólida aos sistemas fechados, elevando o padrão para a IA multimodal aberta. Além disso, o pesquisador de robótica do Google DeepMind, Ted Xiao, elogiou a incorporação de dados de apontamento pelo Molmo, um avanço vital para a ancoragem visual em robótica, melhorando a interação com ambientes físicos.

Arquitetura Avançada e Treinamento

A arquitetura do Molmo é projetada para eficiência e desempenho ideais. Cada modelo utiliza o modelo de visão ViT-L/14 336px da OpenAI como codificador visual, transformando imagens de múltiplas escalas em tokens de visão. Esses tokens são processados por meio de um conector de perceptron multicamadas (MLP) antes de serem integrados ao modelo de linguagem.

O protocolo de treinamento consiste em duas etapas cruciais:

- Pré-treinamento Multimodal: Os modelos são treinados para gerar legendas a partir de descrições detalhadas de imagens fornecidas por anotadores humanos, utilizando um conjunto de dados de alta qualidade conhecido como PixMo.

- Ajuste Supervisionado: Os modelos são ajustados em um conjunto de dados diversificado que inclui benchmarks acadêmicos e conjuntos de dados recém-desenvolvidos, preparando-os para tarefas complexas como leitura de documentos e raciocínio visual.

Ao contrário de muitos modelos contemporâneos, o Molmo não depende de aprendizado por reforço a partir de feedback humano (RLHF), utilizando em vez disso um pipeline de treinamento precisamente calibrado que atualiza todos os parâmetros com base em estados de pré-treinamento.

Desempenho em Benchmark

Os modelos Molmo apresentam resultados notáveis em diversos benchmarks, superando notavelmente modelos proprietários. Por exemplo, o Molmo-72B pontua 96,3 no DocVQA e 85,5 no TextVQA, superando tanto o Gemini 1.5 Pro quanto o Claude 3.5 Sonnet. Ele também se destaca no Ai2D, com uma pontuação de 96,3, a mais alta entre todas as famílias de modelos.

Destaca-se que o Molmo-72B brilha em tarefas de ancoragem visual, alcançando as melhores pontuações no RealWorldQA, tornando-se um candidato promissor para robótica e aplicações complexas de raciocínio multimodal.

Acesso Aberto e Desenvolvimentos Futuros

O Ai2 disponibilizou esses modelos e conjuntos de dados gratuitamente em seu espaço no Hugging Face, garantindo compatibilidade com frameworks populares de IA, como Transformers. Esta iniciativa faz parte da missão do Ai2 de promover inovação e colaboração dentro da comunidade de IA.

Nos próximos meses, o Ai2 planeja lançar modelos adicionais, códigos de treinamento e um relatório técnico expandido, ampliando ainda mais os recursos disponíveis para pesquisadores. Para aqueles interessados nas capacidades do Molmo, uma demonstração pública e pontos de verificação do modelo estão agora disponíveis na página oficial do Molmo.

Gaxos Apresenta Gaxos Labs: Ferramentas de Desenvolvimento de IA para Criadores de Jogos

Reviravolta na Liderança da OpenAI: CTO Mira Murati Deixa a Empresa

Most people like

SologoAI

32.6K

Crie logotipos impressionantes com facilidade usando nosso criador de logotipos movido a IA. Projete a identidade da sua marca em segundos, unindo criatividade e tecnologia para resultados profissionais.

Criador de logotipos com inteligência artificial AI Design Generator

SEO Bot

SEO Bot is an AI-powered platform for busy founders that takes care of your SEO and blogging needs, freeing up your time to focus on your core business.

Otimização de SEO AI SEO Assistant

Concerty

390K

Explore o vibrante mundo da música ao vivo com nosso guia completo sobre ingressos, festivais e setlists. Descubra como garantir seu lugar nos eventos mais badalados, assistir às últimas apresentações e acompanhar os setlists dos seus artistas favoritos. Junte-se a nós na celebração da atmosfera eletrizante dos shows ao vivo e das experiências inesquecíveis que eles proporcionam!

concertos Other

ContentDetector.AI

381.5K

Descubra o poder de um detector de conteúdo de IA gratuito, um verificador de plágio do ChatGPT preciso e um contador de palavras eficiente, todos projetados para melhorar sua experiência de escrita. Otimize seu conteúdo e garanta originalidade com facilidade!

detector de conteúdo de IA AI Content Detector

Find AI tools in YBX