Alibaba تكشف عن Qwen2-VL: النموذج الذكي الجديد القادر على تحليل الفيديوهات التي تتجاوز مدتها 20 دقيقة

Home أخبار الذكاء الاصطناعي Alibaba تكشف عن Qwen2-VL: النموذج الذكي الجديد القادر على تحليل الفيديوهات التي تتجاوز مدتها 20 دقيقة

Updated on أغسطس 29 2024

أعلنت Alibaba Cloud، قسم خدمات السحابة التابع لعملاق التجارة الإلكترونية الصيني، عن إطلاق Qwen2-VL، نموذجها الجديد الذي يهدف إلى تعزيز الفهم البصري، تحليل الفيديو، ومعالجة النصوص والصور بعدة لغات.

يثبت Qwen2-VL تفوقه على النماذج الرائدة مثل Llama 3.1 من Meta، وGPT-4o من OpenAI، وClaude 3 Haiku من Anthropic، وGemini-1.5 Flash من Google، بناءً على اختبارات القياس التي أجراها طرف ثالث. يمكن للمستخدمين تجربته على منصة Hugging Face.

اللغات المدعومة: الإنجليزية، الصينية، معظم اللغات الأوروبية، اليابانية، الكورية، العربية، والفيتنامية.

تحليل بصري ومتقدم للفيديو

تسعى Alibaba لإعادة تعريف تفاعل الذكاء الاصطناعي مع البيانات المرئية من خلال Qwen2-VL. يتميز هذا النموذج بقدرته على تحليل الكتابة اليدوية بعديد من اللغات، وتحديد ووصف العناصر في الصور، ومعالجة الفيديو المباشر تقريباً في الوقت الحقيقي، مما يجعله مناسبًا للدعم الفني والمهام التشغيلية الحية.

في منشور مدونة على GitHub، أبرز فريق بحث Qwen: "بعيدًا عن الصور الثابتة، يمتد Qwen2-VL ليشمل تحليل محتوى الفيديو. يمكنه تلخيص الفيديوهات، والإجابة على الأسئلة المتعلقة بها، والمحافظة على محادثات في الوقت الحقيقي، مما يتيح له العمل كمساعد شخصي للمستخدمين من خلال تقديم رؤى مباشرة من محتوى الفيديو."

من الجدير بالذكر أن Qwen2-VL يمكنه تحليل الفيديوهات التي تزيد عن 20 دقيقة والإجابة على الأسئلة حول محتواها.

مثال على تلخيص الفيديو:

في إحدى العروض، تمكن Qwen2-VL من تلخيص فيديو يظهر رواد فضاء يناقشون مهمتهم داخل محطة فضاء، مقدماً للمشاهدين نظرة مثيرة على استكشاف الفضاء.

نماذج متغيرة وخيارات مفتوحة المصدر

يتوفر Qwen2-VL في ثلاثة نماذج: Qwen2-VL-72B (بـ 72 مليار معلمة)، Qwen2-VL-7B، وQwen2-VL-2B. النماذج 7B و2B مفتوحة المصدر بموجب ترخيص Apache 2.0، مما يجعلها خيارات جذابة للشركات. تم تصميم هذه النماذج لتقديم أداء تنافسي على نطاق واسع ومتاحة على منصات مثل Hugging Face وModelScope.

ومع ذلك، فإن أكبر نموذج بــ 72B سيكون متاحاً لاحقًا بموجب ترخيص منفصل وAPI من Alibaba.

الوظائف والتكامل

تستفيد سلسلة Qwen2-VL من عائلة نموذج Qwen، حيث تشمل تحسينات مثل:

- التكامل مع الأجهزة مثل الهواتف المحمولة والروبوتات للعمليات الآلية بناءً على المدخلات المرئية والنصية.

- قدرات استدعاء الوظائف التي تسمح بالتفاعل مع البرامج والتطبيقات الخارجية، وفهم معلومات حيوية مثل حالات الرحلات وتتبع الطرود.

تُظهر هذه الميزات قدرة Qwen2-VL على القيام بمهام تتطلب تفكيرًا معقدًا وصنع قرارات.

ابتكارات معمارية

يتضمن Qwen2-VL العديد من الابتكارات المعمارية لتحسين معالجة البيانات المرئية. يدعم Naive Dynamic Resolution التعامل مع الصور بدقات مختلفة، مما يضمن دقة في التفسير البصري. كما يتيح نظام Multimodal Rotary Position Embedding (M-ROPE) للنموذج دمج المعلومات المكانية عبر النصوص والصور والفيديوهات بفعالية.

تطورات مستقبلية من فريق Qwen

يكرس فريق Qwen جهوده لتقدم نماذج اللغة البصرية من خلال دمج أنماط إضافية وتعزيز تطبيقات النماذج. تم توفُّر نماذج Qwen2-VL الآن للمطورين والباحثين الذين يتطلعون لاستكشاف إمكانيات هذه الأدوات الحديثة.

ميتا تشعل ثورة الذكاء الاصطناعي مفتوح المصدر مع ارتفاع تنزيلات لاما بنسبة 10 أضعاف سنوياً

الرفيق النشيط: كيف تُحدث الذكاء الاصطناعي القائم على الفعل ثورة في فرق تطوير البرمجيات

Most people like

Imentiv AI - Facial Emotion Recognition Software

12.1K

تستخدم Imentiv AI تكنولوجيا الذكاء الاصطناعي المتقدمة لتحليل المشاعر في مقاطع الفيديو، مما يوفر رؤى قيمة حول أثرها العاطفي. اكتشف كيف تقوم هذه المقاربة المبتكرة بتحويل تحليل الفيديو وتعزيز تفاعل المشاهدين.

التعرف على تعبيرات الوجه AI Advertising Assistant

Jamboss

8.3K

اكتشف قوة مولد الموسيقى المدعوم بالذكاء الاصطناعي، المصمم لصنع ومشاركة أغاني فريدة وشخصية. استمتع بطريقة سلسة لإطلاق إبداعك وإنتاج مقاطع مخصصة بسهولة.

مولد موسيقى ذكية AI Music Generator

BarGPT

124.4K

بارGPT هو بار تيخليك مصممة ذكية، تبتكر كوكتيلات فريدة ومبتكرة، مما يحوّل تجربتنا في الخلط. ودع الخيارات التقليدية للشراب ومرحباً بعالم مثير من النكهات والإبداع!

كوكتيلات الذكاء الاصطناعي AI Recipe Assistant

Crayon AI

افتح آفاق الذكاء الاصطناعي من خلال مجموعة شاملة من الأدوات لتوليد وتحرير وتحسين الصور. اكتشف أدوات وتقنيات مبتكرة تهدف إلى تعزيز مشاريعك الإبداعية وتسهيل سير عملك في هذا المشهد الرقمي المتغير بسرعة.

مولد صور الذكاء الاصطناعي AI Photo & Image Generator

Find AI tools in YBX