هوجينج فيس تطلق Idefics2: النموذج الجديد مفتوح المصدر للغة البصرية بثمانية مليارات من المعلمات

Home أخبار الذكاء الاصطناعي هوجينج فيس تطلق Idefics2: النموذج الجديد مفتوح المصدر للغة البصرية بثمانية مليارات من المعلمات

Updated on أبريل 15 2024

أطلقت Hugging Face نموذج اللغة البصرية Idefics في عام 2023، مستخدمةً تكنولوجيا تم تطويرها أصلاً بواسطة DeepMind. النسخة المطورة، Idefics2، متاحة الآن على Hugging Face وتتميز بحجم معاملات أصغر، ترخيص مفتوح، وقدرات محسنة للتعرف الضوئي على الأحرف (OCR).

Idefics، الذي يعني "الشيفرة المعززة بوعي الصورة على طريقة Flamingo مع انتباه متداخل"، هو نموذج متعدد الوسائط قادر على معالجة كل من النصوص والصور. بينما كان لدى Idefics الأصلي 80 مليار معاملة، تم تبسيط Idefics2 ليصبح 8 مليار، مما يجعله قادراً على المنافسة مع نماذج مثل DeepSeek-VL وLLaVA-NeXT-Mistral-7B.

تشمل التحسينات الرئيسية في Idefics2 معالجة الصور المتقدمة، حيث يدعم دقة أصلية تصل إلى 980 × 980 بكسل دون الحاجة إلى تغيير الحجم لتناسب نسبة عرض إلى ارتفاع ثابتة، وهي قيود شائعة في رؤية الكمبيوتر التقليدية. كما تم تحسين قدرات OCR في النموذج من خلال دمج بيانات مستمدة من نسخ النصوص في الصور والمستندات. وقد حسّن فريق Hugging Face قدرة Idefics2 على الرد على الأسئلة المتعلقة بالمخططات، الأشكال، والمستندات.

علاوة على ذلك، تم تبسيط بنية Idefics2 من خلال التخلي عن آليات الانتباه المتقطع المستخدمة في سابقتها. وفقًا لـ Hugging Face، "يتم إدخال الصور في مشفر الرؤية، يتبعها تجميع Perceiver المتعلم وإسقاط متعدد الطبقات. يتم دمج هذا التسلسل المجمع مع تضمينات النص لإنشاء تسلسل متداخل من الصور والنصوص."

لتدريب Idefics2، استخدمت Hugging Face مجموعة من البيانات المتاحة للعامة، بما في ذلك Mistral-7B-v0.1 وsiglip-so400m-patch14-384. شملت بيانات التدريب الإضافية المستندات الإلكترونية، أزواج الصور والتعليقات، بيانات OCR، وموارد تحويل الصور إلى كود.

تأتي إطلاق Idefics2 في ظل زيادة كبيرة في النماذج متعددة الوسائط في مشهد الذكاء الاصطناعي، بما في ذلك نموذج Core من Reka، Grok-1.5V من xAI، وImagen 2 من Google.

كيف تعزز شراكات MongoDB مع الشركات الناشئة في الذكاء الاصطناعي والعملاقين السحابيين مثل AWS وGoogle وMicrosoft من ابتكار الذكاء الاصطناعي التوليدي لدى المطورين؟

تستخدم واجهة برمجة التطبيقات Verify من Telesign تقنيات الذكاء الاصطناعي والتعلم الآلي لتعزيز الأمان ونمو القنوات المتعددة.

Most people like

ChatGPT Image Generator

32.1K

أطلق إبداعك مع مولد الصور ChatGPT! استكشف إمكانيات لا حصر لها وحوّل أفكارك إلى صور مذهلة باستخدام أداتنا القوية. سواء كنت فنانًا، مصممًا، أو مجرد شخص يتطلع للإبداع، يمكن لمولد الصور ChatGPT أن يحقق رؤاك كما لم يحدث من قبل!

الذكاء الاصطناعي Text to Image

Chinese Feng Shui Online Calculation Tool

12.7K

اكتشف كيف harness طاقة الفينغ شوي لتحقيق حياة متوازنة ومزدهرة. من خلال فهم هذه المبادئ وتطبيقها، يمكنك تحويل مساحتك المعيشية إلى مصدر للهدوء والطاقة الإيجابية.

الفُنغ شُوي الصيني Other

Globe Explorer

970.9K

اكتشف مواضيع مثيرة وشارك أفكارك على Globe Explorer. انضم إلى مجتمعنا لتعزيز تجربتك ومساعدتنا في التحسين!

استكشاف الموضوعات Research Tool

Kopy

95.4K

انسخ واستورد المنتجات من أي متجر إلكتروني effortlessly بنقرة واحدة فقط!

استيراد المنتجات E-commerce Assistant

Find AI tools in YBX