Hugging Face dévoile Idefics2 : le nouveau modèle de langage visuel open source de 8 milliards de paramètres.

Home Actualités IA Hugging Face dévoile Idefics2 : le nouveau modèle de langage visuel open source de 8 milliards de paramètres.

Hugging Face a lancé son modèle de langage visuel Idefics en 2023, en s'appuyant sur une technologie développée initialement par DeepMind. La version améliorée, Idefics2, est maintenant disponible sur Hugging Face et se distingue par une taille de paramètre réduite, une licence ouverte et des capacités avancées de reconnaissance optique de caractères (OCR).

Idefics, qui signifie Image-aware Decoder Enhanced à la Flamingo avec des attentions croisées entrelacées, est un modèle multimodal polyvalent capable de traiter à la fois des textes et des images. Alors que l'Idefics original comptait 80 milliards de paramètres, Idefics2 a été optimisé à seulement 8 milliards, le rendant comparable à des modèles tels que DeepSeek-VL et LLaVA-NeXT-Mistral-7B.

Parmi les améliorations clés d'Idefics2 figure la manipulation avancée d'images, supportant des résolutions natives allant jusqu'à 980 x 980 pixels sans nécessité de redimensionnement, une limitation commune dans la vision par ordinateur traditionnelle.

Les capacités OCR du modèle ont également été renforcées grâce à l'intégration de données dérivées de la transcription de textes dans des images et des documents. L'équipe de Hugging Face a amélioré la capacité d'Idefics2 à répondre à des questions liées aux graphiques, aux figures et aux documents.

De plus, l'architecture d'Idefics2 a été simplifiée en abandonnant les mécanismes d'attention croisées utilisés par son prédécesseur. Selon Hugging Face, « Les images sont introduites dans l'encodeur visuel, suivies d'un pool apprenant de type Perceiver et d'une projection de modalité à perceptron multicouche. Cette séquence de pool est concaténée avec les embeddings textuels pour créer une séquence entrelacée d'images et de textes. »

Pour entraîner Idefics2, Hugging Face a utilisé une combinaison de datasets accessibles au public, y compris Mistral-7B-v0.1 et siglip-so400m-patch14-384. Des données supplémentaires d'entraînement comprenaient des documents web, des paires image-légende, des données OCR et des ressources image-à-code.

La sortie d'Idefics2 intervient à un moment où les modèles multimodaux prolifèrent dans le paysage de l'IA, notamment le modèle Core de Reka, Grok-1.5V de xAI et Imagen 2 de Google.

Comment les collaborations de MongoDB avec des startups d'IA et des géants du cloud tels qu'AWS, Google et Microsoft stimulent l'innovation en matière d'IA générative pour les développeurs.

L'API Verify de Telesign tire parti de l'IA et du ML pour renforcer la sécurité et favoriser la croissance omnicanal.

Most people like

QRBTF - AI QR Code Generator

50K

Découvrez le générateur de codes QR ultime alimenté par l'IA—votre premier choix pour créer facilement des codes QR magnifiques et de haute qualité ! Améliorez votre stratégie marketing et engagez votre public avec notre outil innovant conçu pour répondre à tous vos besoins en matière de codes QR. Essayez-le dès aujourd'hui et découvrez par vous-même sa simplicité et son efficacité !

IA AI Art Generator

PlagiarismCheck

236.4K

Découvrez un vérificateur de plagiat fiable, conçu spécialement pour les enseignants et les étudiants. Cet outil puissant garantit l’intégrité de vos travaux en identifiant rapidement et avec précision les éventuels plagiats, ce qui en fait une ressource essentielle pour réussir académiquement.

vérificateur de plagiat AI Plagiarism Checker

Spark Mail

525.6K

Maîtrisez la gestion de vos e-mails avec Spark. Prenez le contrôle de votre boîte de réception dès aujourd'hui !

Gestion des e-mails AI Advertising Assistant

FeedHive

53.3K

FeedHive est une plateforme innovante alimentée par l'IA, conçue pour créer et gérer facilement un contenu engageant sur les réseaux sociaux. Que vous soyez propriétaire d'une petite entreprise ou gestionnaire de médias sociaux, FeedHive simplifie votre stratégie de contenu et renforce votre présence en ligne, facilitant ainsi la connexion avec votre audience.

médias sociaux AI Social Media Assistant

Find AI tools in YBX