تُشكل فهم نوايا المستخدمين من خلال تفاعلات واجهة المستخدم (UI) تحديًا كبيرًا في تطوير تطبيقات الذكاء الاصطناعي الفعّالة والبديهية. في دراسة حديثة، قدم باحثون من Apple نموذجًا مبتكرًا يُدعى UI-JEPA، الذي يهدف لتقليل المتطلبات الحاسوبية لفهم واجهة المستخدم مع تقديم أداء عالٍ. يُعزز UI-JEPA فهم واجهة المستخدم الخفيف الوزن على الأجهزة، مما يُحسّن استجابة تطبيقات المساعد الذكي ويحافظ على خصوصية المستخدم—وذلك في إطار استراتيجية Apple الأوسع لتطوير قدرات الذكاء الاصطناعي على الأجهزة.
تحديات فهم واجهة المستخدم
يتطلب استنباط نية المستخدم من تفاعلات واجهة المستخدم تحليل ميزات متعددة الوسائط، بما في ذلك الصور واللغة الطبيعية، لفهم العلاقات الزمنية داخل تسلسلات واجهة المستخدم. يقول المؤلفان المشتركان ييتشينغ فو، متدرب باحث في تعلم الآلة في Apple، ورافيتيجا أنانثا، عالم رئيسي في تعلم الآلة في Apple: "على الرغم من أن التقدم في نماذج اللغة الكبيرة متعددة الوسائط مثل Anthropic Claude 3.5 Sonnet وOpenAI GPT-4 Turbo يوفر فرصًا للتخصيص من خلال دمج سياقات المستخدم، إلا أن هذه النماذج تتطلب موارد حاسوبية كبيرة وتقدم زمن استجابة مرتفع. مما يجعلها غير مناسبة للتطبيقات الخفيفة الوزن على الأجهزة حيث تعتبر السرعة والخصوصية أساسية."
على الجانب الآخر، تبقى النماذج الخفيفة الموجودة حاليًا التي قادرة على تحليل نية المستخدم مكلفة من حيث الحسابات لتعزيز الكفاءة على الأجهزة.
معمارية JEPA
يستمد UI-JEPA إلهامه من "العمارة التنبؤية ذات التضمين المشترك" (JEPA) التي أسسها يان ليكون، كبير علماء الذكاء الاصطناعي في Meta، في 2022. تركز JEPA على تعلم تمثيلات دلالية من خلال توقع الأجزاء المخفية في الصور أو الفيديوهات، مما يجعلها تركز على جوانب المشهد الحيوية بدلاً من إعادة بناء كل التفاصيل.
من خلال تقليل بُعد المشكلة بشكل كبير، تمكّن JEPA النماذج الأصغر من اكتساب تمثيلات غنية. بالإضافة إلى ذلك، كخوارزمية ذاتية الإشراف، يمكن تدريبها على كميات ضخمة من البيانات غير الوصفت، مما يتجنب التكاليف العالية للتعليم اليدوي.
يقول فو وآنانثا: "على عكس النماذج التوليدية التي تسعى لملء كل المعلومات المفقودة، تتخلص JEPA بكفاءة من البيانات الزائدة، مما يعزز كفاءة التدريب والعينات من 1.5 إلى 6 مرات في V-JEPA، وهو أمر حاسم نظرًا لندرة مقاطع الفيديو عالية الجودة لوحدات واجهة المستخدم."
UI-JEPA: آفاق جديدة
بناءً على نقاط القوة في JEPA، يعدل UI-JEPA العمارة لفهم واجهة المستخدم، من خلال دمج مكونين رئيسيين: مشفر محول الفيديو ونموذج لغة يعتمد على فك التشفير فقط. يقوم مشفر محول الفيديو بمعالجة مقاطع الفيديو المتعلقة بتفاعلات واجهة المستخدم، وتحويلها إلى تمثيلات ميزات مجردة، بينما يستفيد نموذج اللغة من هذه التضمينات الفيديوية لتوليد أوصاف نصية لنوايا المستخدم. باستخدام Microsoft Phi-3، نموذج خفيف الوزن يحتوي على حوالي 3 مليارات معلمة، يتألق UI-JEPA في التطبيقات على الأجهزة.
يتيح هذا التوافق بين مشفر قائم على JEPA ونموذج لغة خفيف الوزن لـ UI-JEPA تحقيق أداء متميز مع متطلبات أقل بكثير من المتطلبات الحاسوبية النموذجية لـ MLLMs المتقدمة.
لتعزيز أبحاث فهم واجهة المستخدم، قدم الفريق مجموعتين من البيانات متعددة الوسائط والمعايير، "النية في الحقل" (IIW) و"النية في البيئات المستأنسة" (IIT). تشمل IIW تسلسلات مفتوحة من إجراءات واجهة المستخدم ذات النية الغامضة، بينما تركز IIT على مهام أكثر تحديدًا مثل ضبط التذكيرات. "نعتقد أن هذه المجموعات ستعزز تطوير نماذج MLLMs أكثر قوة وكفاءة"، يؤكد الباحثون.
تقييم UI-JEPA
أظهر تقييم أداء UI-JEPA مقارنة بمشفرات الفيديو الأخرى ونماذج MLLMs مثل GPT-4 Turbo وClaude 3.5 Sonnet أن UI-JEPA تفوق في سيناريوهات القليل من الأمثلة عبر كل من مجموعات بيانات IIT وIIW. حقق أداءً مماثلاً للنماذج المغلقة الأكبر بينما ظل أخف وزنًا بكثير عند 4.4 مليار معلمة. ساهم دمج النص عبر التعرف الضوئي على الأحرف (OCR) في تحسين فعاليته، على الرغم من أن UI-JEPA واجه تحديات في الإعدادات بدون أمثلة.
يتصور الباحثون العديد من التطبيقات لـ UI-JEPA، حيث يمكن أن تُستخدم لإنشاء حلقات تغذية مرتدة تلقائية لوكلاء الذكاء الاصطناعي، مما يمكّن التعلم المستمر من التفاعلات مع المستخدمين دون الحاجة إلى إدخال يدوي. يمكن أن يقلل هذا من تكاليف التعليم مع الحفاظ على خصوصية المستخدم. "مع جمع الوكلاء المزيد من البيانات باستخدام UI-JEPA، يصبحون أكثر كفاءة في ردودهم"، أشار المؤلفون. "علاوة على ذلك، تعزز قدرة UI-JEPA على معالجة السياقات المعروضة على الشاشة من تعزيز التعليمات للمخططين المعتمدين على نماذج اللغة الكبيرة، مما يحسن توليد خطط دقيقة للاستفسارات المعقدة أو الضمنية."
يمكن أيضًا دمج UI-JEPA في الأطر المصممة لتتبع نية المستخدم عبر تطبيقات ووسائط متنوعة. في هذه السعة، يمكن أن تعمل كوكيل إدراكي لاسترجاع النوايا ذات الصلة للمستخدم لتوليد استدعاءات واجهة برمجة التطبيقات المناسبة أثناء تفاعلات المستخدم مع المساعدين الرقميين.
"يعزز UI-JEPA أي إطار للوكلاء الذكيين من خلال توافقه بشكل أكبر مع تفضيلات المستخدم وتوقع الأفعال بناءً على بيانات النشاط على الشاشة"، أوضح فو وآنانثا. "عند دمجه مع البيانات الزمنية والجغرافية، يمكنه استنتاج نية المستخدم لنطاق واسع من التطبيقات". يتوافق UI-JEPA بشكل جيد مع Apple Intelligence، وهو مجموعة من أدوات الذكاء الاصطناعي التوليدية الخفيفة التي تعزز القدرات الذكية والم productive لأجهزة Apple. نظرًا لالتزام Apple بالخصوصية، يمكن لكفاءة UI-JEPA ومتطلبات الموارد المنخفضة أن توفر ميزة بارزة على النماذج المعتمدة على السحابة.