A Hugging Face lançou seu modelo de linguagem visual Idefics em 2023, aproveitando a tecnologia desenvolvida inicialmente pela DeepMind. A versão aprimorada, Idefics2, já está disponível na Hugging Face e apresenta um tamanho de parâmetro menor, uma licença aberta e capacidades avançadas de Reconhecimento Óptico de Caracteres (OCR).
Idefics, que significa Decodificador Consciente de Imagem Aprimorado à la Flamingo com Atenções Cruzadas Intercaladas, é um modelo multimodal versátil capaz de processar tanto textos quanto imagens. Enquanto o Idefics original contava com 80 bilhões de parâmetros, o Idefics2 foi otimizado para apenas 8 bilhões, tornando-o comparável a modelos como DeepSeek-VL e LLaVA-NeXT-Mistral-7B.
As principais melhorias no Idefics2 incluem manipulação de imagens avançada, suportando resoluções nativas de até 980 x 980 pixels sem a necessidade de redimensionamento para caber em uma proporção quadrada fixa, uma limitação comum na visão computacional tradicional.
As capacidades de OCR do modelo também foram aprimoradas com a incorporação de dados provenientes da transcrição de textos em imagens e documentos. A equipe da Hugging Face melhorou a capacidade do Idefics2 de responder a questões relacionadas a gráficos, figuras e documentos.
Além disso, a arquitetura do Idefics2 foi simplificada, abandonando os mecanismos de atenção cruzada com controle utilizados em seu predecessor. Segundo a Hugging Face, “As imagens são inseridas no codificador de visão, seguidas por pooling aprendido do Perceiver e projeção de modalidade em um Perceptron de Múltiplas Camadas. Essa sequência agrupada é concatenada com as incorporações de texto para criar uma sequência intercalada de imagens e texto.”
Para treinar o Idefics2, a Hugging Face utilizou uma combinação de conjuntos de dados disponíveis publicamente, incluindo Mistral-7B-v0.1 e siglip-so400m-patch14-384. Dados adicionais de treinamento incluíram documentos da web, pares de imagem e legenda, dados de OCR e recursos de imagem para código.
O lançamento do Idefics2 ocorre em meio a um aumento de modelos multimodais no cenário de IA, incluindo o modelo Core da Reka, o Grok-1.5V da xAI e o Imagen 2 do Google.