نموذج ReALM من آبل يعزز ذكاء سيري
في 2 أبريل، تم الإبلاغ عن أن آبل تتقدم في استكشافها للذكاء الاصطناعي من خلال نموذج جديد يُدعى ReALM، المصمم لتعزيز قدرات سيري بشكل كبير. تكشف الدراسات الحديثة أن ReALM يتفوق على نموذج OpenAI الشهير للغة، GPT-4.0، على الرغم من أن قدرة سيري على وصف الصور لا تزال غير متسقة في هذه المرحلة.
الميزات الرئيسية لنموذج ReALM
يمتاز ReALM بقدرته على فهم المحتوى المعروض على شاشة المستخدم والأنشطة الممارسة في الوقت نفسه. يصنف النموذج المعلومات إلى ثلاثة أنواع:
1. كيانات الشاشة: المحتوى المرئي حاليًا على شاشة المستخدم.
2. كيانات الحوار: المعلومات المتعلقة بالمحادثات الجارية، مثل تفاصيل الاتصال بـ "أمي" في الأمر "اتصل بأمي".
3. كيانات الخلفية: الكيانات غير المرتبطة مباشرة بمحتوى الشاشة الحالي أو الأنشطة، مثل تشغيل الموسيقى أو المنبه المقبل.
إذا تم تشغيله بالكامل، سيجعل ReALM سيري أكثر ذكاءً وفائدة. أجرى فريق البحث مقارنة بين أداء ReALM ونموذجي OpenAI GPT-3.5 وGPT-4.0، مما أسفر عن رؤى ملحوظة:
"اختبرنا كلا النموذجين من OpenAI، GPT-3.5 وGPT-4.0، مع توفير معلومات سياقية لتوقع كيانات متنوعة. يعالج GPT-3.5 المدخلات النصية فقط، بينما يمكن لـ GPT-4 فهم بيانات الصور، مما يعزز بشكل كبير قدرته على تحديد كيانات الشاشة."
نتائج مذهلة من ReALM
حقَّق نموذج ReALM تقدمًا ملحوظًا في التعرف على أنواع مختلفة من الكيانات. حصل النموذج الأصغر على تحسين يزيد عن 5% في دقة التعرف على كيانات الشاشة مقارنة بالنظام الأصلي. عند مقارنته بـ GPT-3.5 وGPT-4.0، أدّت نماذجنا الأصغر أداءً يعادل GPT-4.0، بينما تفوقت النماذج الأكبر بشكل واضح.
أحد استنتاجات الدراسة هو أنه على الرغم من أن ReALM يحتوي على عدد أقل بكثير من المعلمات مقارنة بـ GPT-4، إلا أن أدائه تنافسي، خاصة عند معالجة أوامر المستخدم في سياقات معينة، مما يجعله نظامًا فعالًا للتعرف على الكيانات على الجهاز.
بالنسبة لآبل، تكمن التحديات في تنفيذ هذه التكنولوجيا بشكل فعال على الأجهزة دون التأثير على الأداء. مع اقتراب مؤتمر المطورين WWDC 2024 في 10 يونيو، يتطلع القطاع بشغف إلى عرض آبل للابتكارات الجديدة في الذكاء الاصطناعي في iOS 18 وأنظمة أخرى قادمة.