كشفت أبحاث شركة آبل عن نظام متقدم للذكاء الاصطناعي يعزز قدرة المساعدات الصوتية على فهم الإشارات الغامضة وسياقاتها المحيطة، مما يسهل التفاعلات بشكل أكثر طبيعية. هذه الابتكارات، التي تم تفصيلها في ورقة بحثية نُشرت يوم الجمعة، تحمل اسم ReALM (نموذج اللغة لحل الإشارات).
يستخدم ReALM نماذج لغوية كبيرة لتحويل المهمة المعقدة لحل الإشارات—بما في ذلك تحديد العناصر المرئية على الشاشة—إلى تحدٍ قائم على نمذجة اللغة. هذه النقلة تؤدي إلى تحسينات كبيرة في الأداء مقارنةً بالأساليب الحالية.
قال فريق البحث: "فهم السياق، بما في ذلك الإشارات، أمر ضروري للمساعدات الحوارية. تمكين المستخدمين من استفسار محتوى الشاشة المرئي أمر حيوي لتحقيق تجربة حقيقية خالية من اليدين مع المساعدات الصوتية."
تعزيز المساعدات الحوارية
تتمثل إحدى الميزات البارزة في ReALM في قدرته على إعادة بناء العناصر المرئية على الشاشة باستخدام الكيانات المُعالجة ومواقعها، مما ينتج عنه تمثيل نصي يتماشى مع التخطيط المرئي. أظهر الفريق أن هذه الطريقة، عندما تُدمج مع ضبط دقيق خاص لنماذج اللغة لحل الإشارات، تتجاوز أداء GPT-4.
يمكن لنظام آبل للذكاء الاصطناعي، ReALM، تفسير الإشارات المتعلقة بالعناصر المعروضة على الشاشة، مثل قائمة “260 Sample Sale” في نموذج افتراضي، مما يُعزز التفاعلات مع المساعدات الصوتية.
أضاف الباحثون: "نحن نقدم تحسينات كبيرة مقارنةً بالأنظمة الحالية في التعامل مع أنواع الإشارات المختلفة، حيث حقق نموذجنا الأصغر أكثر من 5% في دقة الإشارات على الشاشة. بينما نماذجنا الأكبر تتفوق بشكل ملحوظ على GPT-4."
التطبيقات العملية والقيود
تؤكد هذه الأبحاث على إمكانيات نماذج اللغة المركزة لأداء مهام مثل حل الإشارات في بيئات الإنتاج حيث قد لا تكون النماذج الكبيرة قابلة للتطبيق بسبب القيود الزمنية أو الحوسبية. من خلال مشاركة هذه النتائج، تُجدد آبل التزامها بتحسين القدرات الحوارية والواعية للسياق لـ Siri ولمنتجاتها الأخرى.
ومع ذلك، يقر الفريق بالتحديات المتعلقة بالتعرف على الشاشة بشكل تلقائي. قد يتطلب معالجة الإشارات البصرية المعقدة—مثل التمييز بين عدة صور—دمج تقنيات الرؤية الحاسوبية والوسائط المتعددة.
طموحات آبل في الذكاء الاصطناعي
تقوم آبل بتقدم سريع في أبحاث الذكاء الاصطناعي، رغم أنها حاليًا متأخرة عن المنافسين في سباق السيطرة على الذكاء الاصطناعي. تتراوح تقدماتها الأخيرة من النماذج متعددة الوسائط التي تدمج بين البيانات البصرية واللغوية إلى أدوات الرسوم المتحركة المدعومة بالذكاء الاصطناعي.
على الرغم من كونها معروفة بنهجها الحذر، تواجه آبل منافسة شديدة من Google وMicrosoft وAmazon وOpenAI، الذين قاموا جميعًا بدمج الذكاء الاصطناعي التوليدي في عروضهم بشكل مكثف.
مع تطور مشهد الذكاء الاصطناعي بسرعة، تجد آبل نفسها في موقف صعب. يتزايد الترقب لمؤتمر المطورين العالمي القادم، حيث من المتوقع أن تُقدم الشركة إطار عمل جديد لنماذج اللغة الكبيرة، يُشار إليه باسم "Apple GPT"، بالإضافة إلى ميزات مدعومة بالذكاء الاصطناعي عبر خط منتجاتها.
أشار المدير التنفيذي تيم كوك خلال مكالمة الأرباح إلى أن تفاصيل مبادرات آبل الحالية في مجال الذكاء الاصطناعي سيتم مشاركتها لاحقًا هذا العام. ورغم أن استراتيجية الشركة لا تزال سرية، فإن نطاق جهودها في مجال الذكاء الاصطناعي يتسع بوضوح.
مع تكثيف المنافسة على القيادة في الذكاء الاصطناعي، وضعت دخول آبل المتأخر الشركة تحت ضغط تنافسي. ومع ذلك، توفر مواردها الضخمة، وولاء العلامة التجارية، والهندسة المتفوقة، ومحفظتها المتكاملة من المنتجات ميزة محتملة.
عصر جديد من الحوسبة الذكية يلوح في الأفق. في يونيو، سنشهد ما إذا كانت آبل قد أعدت بشكل كافٍ للتأثير على هذا التحول.