النموذج الناشئ لرؤية الذكاء الاصطناعي المفتوح المصدر يتحدى ChatGPT: القضايا الرئيسية التي يجب مراعاتها

نموذج "Nous Hermes 2 Vision": ابتكار جديد في مجال التعلم الآلي

مؤسسة "Nous Research"، وهي مجموعة بحث خاصة معترف بها لمساهماتها في مجال نماذج اللغة الكبيرة (LLM)، قد قدمت نموذجًا جديدًا للغة والرؤية يحمل اسم "Nous Hermes 2 Vision"، متاح على منصة Hugging Face. يعتمد هذا النموذج مفتوح المصدر على نموذج OpenHermes-2.5-Mistral-7B السابق، ويوسع من قدراته من خلال إمكانية إدخال الصور واستنباط المعلومات النصية من المحتوى المرئي. ومع ذلك، وبعد فترة قصيرة من إطلاقه، أبلغ المستخدمون عن مشاكل مفرطة في التخيّل، مما دفع الشركة لإعادة تسمية المشروع إلى "Hermes 2 Vision Alpha". ومن المتوقع إصدار نسخة أكثر استقرارًا مع مشكلات أقل قريبًا.

"Nous Hermes 2 Vision Alpha"

سُمي النموذج بهذا الاسم تيمناً بـ "هيرميس"، رسول الآلهة في الأساطير اليونانية، وقد تم تصميمه للتنقل في تعقيدات الحوار البشري بدقة ملحوظة. يدمج هذا النموذج البيانات المرئية المقدمة من المستخدمين مع معرفته المكتسبة، مما يمكّنه من تقديم ردود مفصلة بلغة طبيعية. على سبيل المثال، شارك مؤسس "Nous"، المعروف باسم Teknium على منصة X، لقطة شاشة توضح قدرة النموذج على تحليل صورة لبرجر، مقيماً آثارها الصحية.

الميزات المتميزة لـ "Nous Hermes 2 Vision"

بينما يدعم ChatGPT، المستند إلى GPT-4V، إدخال الصور، يبرز "Nous Hermes 2 Vision" من خلال ميزتين رئيسيتين:

1. هيكل خفيف الوزن: بدلاً من الاعتماد على مشفرات الرؤية التقليدية بحجم 3B، يستخدم "Nous Hermes 2 Vision" نموذج SigLIP-400M. لا يبسّط هذا منهج النموذج فحسب، بل يعزز أيضًا الأداء في مهام الرؤية واللغة.

2. إمكانات استدعاء الوظائف: تم تدريب النموذج على مجموعة بيانات مخصصة تشمل استدعاء الوظائف، مما يتيح للمستخدمين استخدام وظائف محددة بشكل فعال.

Most people like

Find AI tools in YBX