أطلقت Hugging Face نموذج اللغة البصرية Idefics في عام 2023، مستخدمةً تكنولوجيا تم تطويرها أصلاً بواسطة DeepMind. النسخة المطورة، Idefics2، متاحة الآن على Hugging Face وتتميز بحجم معاملات أصغر، ترخيص مفتوح، وقدرات محسنة للتعرف الضوئي على الأحرف (OCR).
Idefics، الذي يعني "الشيفرة المعززة بوعي الصورة على طريقة Flamingo مع انتباه متداخل"، هو نموذج متعدد الوسائط قادر على معالجة كل من النصوص والصور. بينما كان لدى Idefics الأصلي 80 مليار معاملة، تم تبسيط Idefics2 ليصبح 8 مليار، مما يجعله قادراً على المنافسة مع نماذج مثل DeepSeek-VL وLLaVA-NeXT-Mistral-7B.
تشمل التحسينات الرئيسية في Idefics2 معالجة الصور المتقدمة، حيث يدعم دقة أصلية تصل إلى 980 × 980 بكسل دون الحاجة إلى تغيير الحجم لتناسب نسبة عرض إلى ارتفاع ثابتة، وهي قيود شائعة في رؤية الكمبيوتر التقليدية. كما تم تحسين قدرات OCR في النموذج من خلال دمج بيانات مستمدة من نسخ النصوص في الصور والمستندات. وقد حسّن فريق Hugging Face قدرة Idefics2 على الرد على الأسئلة المتعلقة بالمخططات، الأشكال، والمستندات.
علاوة على ذلك، تم تبسيط بنية Idefics2 من خلال التخلي عن آليات الانتباه المتقطع المستخدمة في سابقتها. وفقًا لـ Hugging Face، "يتم إدخال الصور في مشفر الرؤية، يتبعها تجميع Perceiver المتعلم وإسقاط متعدد الطبقات. يتم دمج هذا التسلسل المجمع مع تضمينات النص لإنشاء تسلسل متداخل من الصور والنصوص."
لتدريب Idefics2، استخدمت Hugging Face مجموعة من البيانات المتاحة للعامة، بما في ذلك Mistral-7B-v0.1 وsiglip-so400m-patch14-384. شملت بيانات التدريب الإضافية المستندات الإلكترونية، أزواج الصور والتعليقات، بيانات OCR، وموارد تحويل الصور إلى كود.
تأتي إطلاق Idefics2 في ظل زيادة كبيرة في النماذج متعددة الوسائط في مشهد الذكاء الاصطناعي، بما في ذلك نموذج Core من Reka، Grok-1.5V من xAI، وImagen 2 من Google.