Hugging Face lanzó su modelo de lenguaje visual Idefics en 2023, aprovechando tecnología desarrollada inicialmente por DeepMind. La versión mejorada, Idefics2, ya está disponible en Hugging Face y presenta un tamaño de parámetro más pequeño, una licencia abierta y capacidades mejoradas de Reconocimiento Óptico de Caracteres (OCR).
Idefics, que significa Decodificador Consciente de Imágenes Mejora a la Flamingo con Atención Cruzada Intercalada, es un modelo multimodal versátil capaz de procesar tanto textos como imágenes. Mientras que el Idefics original tenía 80 mil millones de parámetros, Idefics2 ha sido optimizado a solo 8 mil millones, lo que lo hace comparable con modelos como DeepSeek-VL y LLaVA-NeXT-Mistral-7B.
Las mejoras clave en Idefics2 incluyen una manipulación avanzada de imágenes, que soporta resoluciones nativas de hasta 980 x 980 píxeles sin necesidad de redimensionar a una relación cuadrada fija, una limitación común en la visión por computadora tradicional. Las capacidades de OCR del modelo también se han fortalecido mediante la incorporación de datos derivados de la transcripción de texto en imágenes y documentos. El equipo de Hugging Face ha mejorado la capacidad de Idefics2 para responder preguntas relacionadas con gráficos, figuras y documentos.
Además, la arquitectura de Idefics2 se ha simplificado al alejarse de los mecanismos de atención cruzada controlados utilizados en su predecesor. Según Hugging Face, “Las imágenes se alimentan al codificador de visión, seguido de un agrupamiento Perceiver aprendido y una proyección de modalidad de Perceptrón Multicapa. Esta secuencia agrupada se concatena con las incrustaciones de texto para crear una secuencia intercalada de imágenes y texto.”
Para entrenar Idefics2, Hugging Face utilizó una combinación de conjuntos de datos disponibles públicamente, incluidos Mistral-7B-v0.1 y siglip-so400m-patch14-384. Los datos de entrenamiento adicionales incluyeron documentos web, pares de imágenes y descripciones, datos de OCR y recursos de imagen a código.
El lanzamiento de Idefics2 se produce en medio de un aumento de modelos multimodales en el campo de la IA, incluidos el modelo Core de Reka, el Grok-1.5V de xAI y el Imagen 2 de Google.