أطلقت xAI، التابعة لإلون ماسك، نموذجها الأول المتعدد الوسائط، Grok-1.5 Vision (Grok-1.5V)، الذي يمكنه فهم النصوص والبيانات البصرية المختلفة، بما في ذلك المستندات والمخططات والرسوم البيانية ولقطات الشاشة والصور. سيتاح هذا النموذج قريبًا للمختبرين المبكرين ومستخدمي Grok الحاليين.
وفقًا لمقال نشرته الشركة، فإن "Grok-1.5V يتنافس مع النماذج الرائدة المتعددة الوسائط في مجالات متعددة، مثل التفكير متعدد التخصصات والفهم البصري لمخططات العلوم والمستندات ولقطات الشاشة والصور."
تأتي هذه الإعلان بعد الكشف عن نموذج الدردشة المحسن، Grok-1.5، حيث عرضت xAI سبعة أمثلة تظهر قدرات Grok-1.5V. تشمل هذه الأمثلة تحويل مخطط تدفق على السبورة إلى كود Python، وإنتاج قصة قبل النوم من رسم لطفل، وشرح الميمات، وتحويل الجداول إلى ملفات CSV، وتقييم ما إذا كانت الأرصفة الخشبية بحاجة إلى استبدال بسبب التعفن.
تدعي xAI أن Grok-1.5V قد تفوق على نماذج المنافسين مثل GPT-4V وClaude 3 Sonnet وClaude 3 Opus وGemini Pro 1.5 في عدة تقييمات. تبرز الشركة أداء Grok-1.5V المتفوق على معيار RealWorldQA، وهو مقياس جديد تم تطويره لتقييم الفهم المكاني في العالم الحقيقي.
تم تدريب RealWorldQA على أكثر من 700 صورة، تم ربط كل منها بأسئلة وأجوبة محددة. تشمل مجموعة البيانات طيفًا من الصور مجهولة الهوية، بما في ذلك تلك الملتقطة من المركبات. تخطط xAI لإصدار RealWorldQA للجمهور بموجب ترخيص Creative Commons.
بينما تواصل xAI تقدمها، تهدف إلى منافسة OpenAI وغيرها من الشركات الرائدة في الصناعة، بعد إطلاق روبوت الدردشة الخاص بها في نوفمبر 2023. تأتي انطلاقة Grok-1.5V بعد فترة قصيرة من جعل xAI لـ Grok AI مفتوح المصدر. ومع ذلك، واجهت الشركة جدلًا، بما في ذلك مزاعم بأن روبوت الدردشة Grok قدم إرشادات حول أنشطة غير قانونية.
رغم هذه التحديات، تظل xAI ملتزمة بتطوير "ذكاء اصطناعي عام مفيد" قادر على فهم الكون. وقد أعلنت الشركة عن تقديم تحديثات كبيرة لوظائف الفهم والتوليد المتعدد الوسائط لـ Grok AI في الأشهر المقبلة.