Meta apresenta o Chameleon: um modelo multimodal de ponta que revoluciona a integração de IA.

Home Notícias de IA Meta apresenta o Chameleon: um modelo multimodal de ponta que revoluciona a integração de IA.

Com a intensificação da competição no cenário da IA generativa, a Meta revelou uma prévia de seu inovador modelo multimodal, Chameleon. Ao contrário dos modelos existentes que combinam componentes de diferentes modalidades, o Chameleon é desenvolvido nativamente para multimodalidade.

Embora os modelos ainda não estejam disponíveis publicamente, experimentos preliminares indicam que Chameleon se destaca em tarefas como legendagem de imagens e questionamento visual (VQA), mantendo-se competitivo em desafios somente de texto.

Arquitetura do Chameleon

O Chameleon utiliza uma arquitetura "early-fusion token-based mixed-modal", um design avançado que processa imagens, texto, código e mais de forma intercalada. Transformando imagens em tokens discretos—semelhante a como os modelos de linguagem tratam palavras—Chameleon emprega um vocabulário unificado que integra tokens de texto, código e imagem. Isso permite que a mesma arquitetura transformer processe sequências contendo tanto texto quanto imagens de maneira fluida.

Pesquisadores observam que o modelo mais comparável é o Google Gemini, que também adota uma abordagem de early-fusion. No entanto, enquanto o Gemini usa decodificadores de imagem separados durante a geração, o Chameleon opera como um modelo de ponta a ponta, processando e gerando tokens simultaneamente. Esse espaço de token unificado permite ao Chameleon gerar sequências intercaladas de texto e imagens sem componentes específicos de modalidade.

Superando os Desafios da Early Fusion

Apesar das vantagens da early fusion, ela apresenta desafios significativos no treinamento e escalonamento do modelo. Para abordar essas questões, a equipe de pesquisa implementou várias modificações arquitetônicas e técnicas de treinamento. O estudo detalha diversos experimentos e seu impacto no desempenho do modelo.

O Chameleon passa por um processo de treinamento em duas etapas, utilizando um conjunto de dados de 4,4 trilhões de tokens que inclui texto, pares de imagem-texto e sequências intercaladas. O treinamento envolveu versões de 7 bilhões e 34 bilhões de parâmetros do Chameleon, realizado em mais de 5 milhões de horas de recursos de GPU Nvidia A100 80GB.

Desempenho do Chameleon

Os resultados publicados no artigo revelam que o Chameleon apresenta um desempenho excepcional em tarefas tanto de texto quanto multimodais. Em benchmarks para questionamento visual (VQA) e legendagem de imagens, o Chameleon-34B alcança resultados de ponta, superando modelos como Flamingo, IDEFICS e Llava-1.5. O Chameleon demonstra forte desempenho com significativamente menos exemplos de treinamento em contexto e tamanhos de modelo menores, tanto em avaliações pré-treinadas quanto ajustadas.

Em um campo onde modelos multimodais podem ter dificuldades em tarefas de única modalidade, o Chameleon mantém desempenho competitivo em benchmarks somente de texto, alinhando-se a modelos como Mixtral 8x7B e Gemini-Pro em tarefas de raciocínio comum e compreensão de leitura.

Notavelmente, o Chameleon possibilita raciocínio e geração multimodal avançados, particularmente em solicitações que exigem texto e imagens intercalados. Avaliações humanas indicam que os usuários preferem os documentos multimodais gerados pelo Chameleon.

Perspectivas Futuras

Recentemente, a OpenAI e o Google lançaram novos modelos multimodais, embora os detalhes sejam escassos. Se a Meta seguir seu padrão de transparência e liberar os pesos do Chameleon, ele poderá servir como uma alternativa aberta a modelos privados.

A abordagem de early fusion também abre caminho para futuras pesquisas, especialmente à medida que mais modalidades são integradas. Startups de robótica, por exemplo, já estão explorando como combinar modelos de linguagem com sistemas de controle robótico. O impacto potencial da early fusion em modelos fundamentais de robótica será intrigante de se observar.

Em resumo, o Chameleon representa um avanço significativo na realização de modelos fundamentais unificados capazes de raciocínio flexível e geração de conteúdo multimodal.

Intently Capta R$3 milhões para Lançar Ferramenta Inovadora de Networking em IA para Fundadores de Startups

Ceder o Controle: Como Copilot+ e PCs Podem Tornar as Empresas Dependentes da Microsoft

Most people like

Artificial Ignorance

7.9K

Inteligência Artificial em Foco por Charlie Guo: um boletim informativo abrangente dedicado a explorar a inteligência artificial para fundadores e inovadores. Mergulhe nas últimas tendências, ferramentas e estratégias para aprimorar sua jornada com IA!

Newsletter de IA Other

GPTonline.ai

515.9K

Desbloqueie o poder da inteligência artificial avançada com o ChatGPT, sua solução de chatbot gratuita. Participe de conversas dinâmicas e experimente tecnologia de ponta sem custos!

ChatBot de IA Translate

Chainlit

60.9K

No cenário digital em rápida evolução de hoje, a IA conversacional está na vanguarda da inovação tecnológica. Este ramo da inteligência artificial se concentra na criação de sistemas que podem se envolver em diálogos semelhantes aos humanos, aprimorando as experiências do usuário em diversas plataformas. Desde chatbots até assistentes virtuais, o desenvolvimento e a análise da IA conversacional desempenham um papel crucial na transformação da nossa interação com a tecnologia. Junte-se a nós enquanto exploramos os últimos avanços e insights nesse campo empolgante, revelando o potencial que a IA conversacional oferece para empresas e usuários.

IA Conversacional AI Analytics Assistant

Codeium

922.2K

Codeium é uma poderosa e gratuita ferramenta alimentada por IA, projetada para completar e pesquisar códigos, oferecendo suporte robusto para mais de 70 linguagens de programação.

Completação de código com IA AI Code Assistant

Find AI tools in YBX