أعلنت Alibaba Cloud، قسم خدمات السحابة التابع لعملاق التجارة الإلكترونية الصيني، عن إطلاق Qwen2-VL، نموذجها الجديد الذي يهدف إلى تعزيز الفهم البصري، تحليل الفيديو، ومعالجة النصوص والصور بعدة لغات.
يثبت Qwen2-VL تفوقه على النماذج الرائدة مثل Llama 3.1 من Meta، وGPT-4o من OpenAI، وClaude 3 Haiku من Anthropic، وGemini-1.5 Flash من Google، بناءً على اختبارات القياس التي أجراها طرف ثالث. يمكن للمستخدمين تجربته على منصة Hugging Face.
اللغات المدعومة: الإنجليزية، الصينية، معظم اللغات الأوروبية، اليابانية، الكورية، العربية، والفيتنامية.
تحليل بصري ومتقدم للفيديو
تسعى Alibaba لإعادة تعريف تفاعل الذكاء الاصطناعي مع البيانات المرئية من خلال Qwen2-VL. يتميز هذا النموذج بقدرته على تحليل الكتابة اليدوية بعديد من اللغات، وتحديد ووصف العناصر في الصور، ومعالجة الفيديو المباشر تقريباً في الوقت الحقيقي، مما يجعله مناسبًا للدعم الفني والمهام التشغيلية الحية.
في منشور مدونة على GitHub، أبرز فريق بحث Qwen: "بعيدًا عن الصور الثابتة، يمتد Qwen2-VL ليشمل تحليل محتوى الفيديو. يمكنه تلخيص الفيديوهات، والإجابة على الأسئلة المتعلقة بها، والمحافظة على محادثات في الوقت الحقيقي، مما يتيح له العمل كمساعد شخصي للمستخدمين من خلال تقديم رؤى مباشرة من محتوى الفيديو."
من الجدير بالذكر أن Qwen2-VL يمكنه تحليل الفيديوهات التي تزيد عن 20 دقيقة والإجابة على الأسئلة حول محتواها.
مثال على تلخيص الفيديو:
في إحدى العروض، تمكن Qwen2-VL من تلخيص فيديو يظهر رواد فضاء يناقشون مهمتهم داخل محطة فضاء، مقدماً للمشاهدين نظرة مثيرة على استكشاف الفضاء.
نماذج متغيرة وخيارات مفتوحة المصدر
يتوفر Qwen2-VL في ثلاثة نماذج: Qwen2-VL-72B (بـ 72 مليار معلمة)، Qwen2-VL-7B، وQwen2-VL-2B. النماذج 7B و2B مفتوحة المصدر بموجب ترخيص Apache 2.0، مما يجعلها خيارات جذابة للشركات. تم تصميم هذه النماذج لتقديم أداء تنافسي على نطاق واسع ومتاحة على منصات مثل Hugging Face وModelScope.
ومع ذلك، فإن أكبر نموذج بــ 72B سيكون متاحاً لاحقًا بموجب ترخيص منفصل وAPI من Alibaba.
الوظائف والتكامل
تستفيد سلسلة Qwen2-VL من عائلة نموذج Qwen، حيث تشمل تحسينات مثل:
- التكامل مع الأجهزة مثل الهواتف المحمولة والروبوتات للعمليات الآلية بناءً على المدخلات المرئية والنصية.
- قدرات استدعاء الوظائف التي تسمح بالتفاعل مع البرامج والتطبيقات الخارجية، وفهم معلومات حيوية مثل حالات الرحلات وتتبع الطرود.
تُظهر هذه الميزات قدرة Qwen2-VL على القيام بمهام تتطلب تفكيرًا معقدًا وصنع قرارات.
ابتكارات معمارية
يتضمن Qwen2-VL العديد من الابتكارات المعمارية لتحسين معالجة البيانات المرئية. يدعم Naive Dynamic Resolution التعامل مع الصور بدقات مختلفة، مما يضمن دقة في التفسير البصري. كما يتيح نظام Multimodal Rotary Position Embedding (M-ROPE) للنموذج دمج المعلومات المكانية عبر النصوص والصور والفيديوهات بفعالية.
تطورات مستقبلية من فريق Qwen
يكرس فريق Qwen جهوده لتقدم نماذج اللغة البصرية من خلال دمج أنماط إضافية وتعزيز تطبيقات النماذج. تم توفُّر نماذج Qwen2-VL الآن للمطورين والباحثين الذين يتطلعون لاستكشاف إمكانيات هذه الأدوات الحديثة.