بعد مؤتمر Microsoft Build و Google I/O، كانت هناك توقعات كبيرة من أبل لعرض قدراتها في الذكاء الاصطناعي المعتمد على الجهاز في مؤتمر المطورين العالمي 2024. نجحت أبل في دمج الذكاء الاصطناعي التوليدي في تجربة المستخدم عبر جميع أجهزتها، معززةً التقدم الملحوظ في هذا المجال.
كانت خاصية المعالجة الواسعة المعتمدة على الجهاز أحد أبرز ملامح عروض أبل، حيث استغلت معالجاتها المتطورة ومجموعة واسعة من الأبحاث المفتوحة لتقديم وظائف ذكاء اصطناعي عالية الجودة ومنخفضة الاستجابة على هواتفها وأجهزة الكمبيوتر الخاصة بها. إليك ما تعلمناه حول الذكاء الاصطناعي المعتمد على الجهاز من أبل:
نظرة عامة على نموذج أبل
في عرض حالة أبل، الذي تم تقديمه في 10 يونيو، تم الكشف عن استخدام أبل لنموذج يحتوي على 3 مليارات باراميتر. ورغم أن أبل لم تكشف عن النموذج الأساسي المحدد الذي تم استخدامه، إلا أنها قدمت مؤخرًا عدة نماذج مفتوحة، بما في ذلك عائلة نماذج OpenELM للغة، والتي تتضمن نسخة مكونة من 3 مليارات باراميتر تم تحسينها للأجهزة ذات الموارد المحدودة.
تم تعديل نموذج OpenELM لتعزيز جودة النموذج دون زيادة عدد الباراميتر، مما يشير إلى أن النموذج الأساسي لأبل قد يكون نسخة متخصصة من OpenELM-3B. تم تدريب هذا النموذج على 1.8 تريليون توكن من مجموعات البيانات المفتوحة، بما في ذلك البيانات المرخصة والمتاحة للجمهور التي قامت بجمعها AppleBot.
شراكات البيانات المرخصة
أقامت أبل شراكات للحصول على بيانات مرخصة، بما في ذلك صفقة تتراوح بين 25 إلى 50 مليون دولار مع Shutterstock للحصول على الصور، واتفاق محتمل بقيمة 50 مليون دولار مع كبرى المؤسسات الإخبارية والنشر.
تقنيات التدريب والتحسين
تم ضبط النموذج بشكل دقيق ليتبع التعليمات بفاعلية من خلال التعلم المعزز من تعليقات البشر (RLHF) وخوارزمية التعديل بواسطة أخذ العينات مع لجنة المعلمين. تستفيد تقنية RLHF من بيانات معلمة يدويًا لتنقيح نماذج اللغة بناءً على تفضيلات المستخدمين، وقد حققت شهرة بعد إطلاق ChatGPT. يعتمد أخذ العينات على إنتاج عدة أمثلة تدريبية، واختيار أفضل نتيجة لتحديث النموذج، وهي تقنية استخدمها فريق Llama-2 أيضًا.
تحسينات تقنية
نفذت أبل تقنيات متنوعة لتحسين أداء النموذج مع الحفاظ على كفاءة الموارد. يستخدم النموذج الأساسي "الانتباه المجموعاتي للنموذج" (GQA)، الذي طورته Google Research، لتسريع سرعة الاستدلال مع وضع تأثير قليل على الذاكرة والمعالجة. كما يستخدم النموذج تقنية "الضغط"، التي تضغط الأوزان باستخدام جداول البحث، إلى جانب التكميم، الذي يقلل من عدد البتات لكل باراميتر.
تم تحسين النماذج لتتناسب مع الأجهزة التي تحمل شرائح M1 وما بعدها، وكذلك iPhone 15 Pro وPro Max المزودة بشريحة A17 Pro، مما يشير إلى استخدام تقنيات تحسين مصممة خصيصًا لشرائح أبل، مثل النموذج اللغوي الكبير الذي تم تقديمه العام الماضي.
مقاييس الأداء
أظهرت النتائج المعلنة على iPhone 15 Pro زمن استجابة يصل إلى حوالي 0.6 مللي ثانية لكل توكن، مع معدل إنتاج يبلغ 30 توكن في الثانية. على سبيل المثال، إذا تم تقديم طلب مكون من 1000 توكن، فسيتم الحصول على استجابة في غضون 0.6 ثانية، متبوعة بإنتاج توكنات بمعدل 30 توكن في الثانية، مما يدل على أداء مثير للإعجاب.
التخصيص باستخدام التكيف ذو الرتبة المنخفضة
لتعزيز الوظائف دون تكرار النموذج، طور مهندسو أبل نسخًا مضبوطة باستخدام محولات التكيف ذو الرتبة المنخفضة (LoRA). تقوم LoRA بتحديث مجموعة صغيرة من الأوزان لمهام محددة، والمحولات التي يقل حجمها عن 100 ميغابايت تتيح للأجهزة تخزين عدة خيارات لوظائف متنوعة مثل التدقيق اللغوي والتلخيص والردود على البريد الإلكتروني.
تقييم الأداء
وفقًا لتقييمات أبل، يتفوق نموذجها عمومًا على نماذج مماثلة الحجم وأكبر، بما في ذلك Gemma-2B وMistral-7B وPhi-3B-Mini.
باختصار، يوضح الذكاء الاصطناعي المعتمد على الجهاز من أبل إمكانيات دمج النماذج المدمجة مع تقنيات التحسين الفعالة والبيانات عالية الجودة والعتاد القوي. حققت الشركة تقدمًا كبيرًا في تحقيق التوازن بين الدقة وتجربة المستخدم. سيكون من المثير للاهتمام رؤية كيفية أداء هذه التكنولوجيا عند طرحها للمستهلكين هذا الخريف.