Hugging Face a lancé son modèle de langage visuel Idefics en 2023, en s'appuyant sur une technologie développée initialement par DeepMind. La version améliorée, Idefics2, est maintenant disponible sur Hugging Face et se distingue par une taille de paramètre réduite, une licence ouverte et des capacités avancées de reconnaissance optique de caractères (OCR).
Idefics, qui signifie Image-aware Decoder Enhanced à la Flamingo avec des attentions croisées entrelacées, est un modèle multimodal polyvalent capable de traiter à la fois des textes et des images. Alors que l'Idefics original comptait 80 milliards de paramètres, Idefics2 a été optimisé à seulement 8 milliards, le rendant comparable à des modèles tels que DeepSeek-VL et LLaVA-NeXT-Mistral-7B.
Parmi les améliorations clés d'Idefics2 figure la manipulation avancée d'images, supportant des résolutions natives allant jusqu'à 980 x 980 pixels sans nécessité de redimensionnement, une limitation commune dans la vision par ordinateur traditionnelle.
Les capacités OCR du modèle ont également été renforcées grâce à l'intégration de données dérivées de la transcription de textes dans des images et des documents. L'équipe de Hugging Face a amélioré la capacité d'Idefics2 à répondre à des questions liées aux graphiques, aux figures et aux documents.
De plus, l'architecture d'Idefics2 a été simplifiée en abandonnant les mécanismes d'attention croisées utilisés par son prédécesseur. Selon Hugging Face, « Les images sont introduites dans l'encodeur visuel, suivies d'un pool apprenant de type Perceiver et d'une projection de modalité à perceptron multicouche. Cette séquence de pool est concaténée avec les embeddings textuels pour créer une séquence entrelacée d'images et de textes. »
Pour entraîner Idefics2, Hugging Face a utilisé une combinaison de datasets accessibles au public, y compris Mistral-7B-v0.1 et siglip-so400m-patch14-384. Des données supplémentaires d'entraînement comprenaient des documents web, des paires image-légende, des données OCR et des ressources image-à-code.
La sortie d'Idefics2 intervient à un moment où les modèles multimodaux prolifèrent dans le paysage de l'IA, notamment le modèle Core de Reka, Grok-1.5V de xAI et Imagen 2 de Google.