كشفت أبحاث شركة آبل عن طرق مبتكرة لتدريب نماذج اللغة الكبيرة (LLMs) التي تجمع بين النصوص والصور، مما يمثل تقدمًا كبيرًا في مجال الذكاء الاصطناعي (AI) ويعزز منتجات آبل المستقبلية. يتم توضيح هذا البحث في ورقة علمية بعنوان "MM1: أساليب وتحليل ورؤى من التدريب المسبق لنماذج LLM متعددة الوسائط"، والتي تم نشرها مؤخرًا على arxiv.org. توضح الدراسة كيفية تحقيق أداء متفوق عبر مجموعة من معايير الذكاء الاصطناعي من خلال الجمع الاستراتيجي بين أنواع مختلفة من بيانات التدريب وهياكل النماذج.
يؤكد الباحثون: "نظهر أن التدريب المسبق متعدد الوسائط على نطاق واسع باستخدام مزيج دقيق من بيانات الصورة-التسمية، والصورة-النص المتداخل، وبيانات النص فقط هو أمر ضروري لتحقيق نتائج بارزة بضع مرات عبر عدة معايير." وقد سمح تدريب النماذج على مجموعات بيانات متنوعة تشمل معلومات بصرية ولغوية لنماذج MM1 بالتفوق في مهام مثل التعليق على الصور، والإجابة على الأسئلة البصرية، واستنتاج اللغة الطبيعية.
الاكتشافات الرئيسية حول المكونات البصرية
يؤثر اختيار وحدة تشفير الصورة ودقة الإدخال بشكل كبير على أداء النموذج. تكشف الدراسة: "لدى وحدة تشفير الصورة، جنبًا إلى جنب مع دقة الصورة وعدد الرموز في الصورة، تأثير كبير، بينما تصميم موصل الرؤية-اللغة يعتبر ذو أهمية ضئيلة نسبيًا." وهذا يؤكد على ضرورة تحسين وتوسيع المكونات البصرية باستمرار في هذه النماذج متعددة الوسائط لفتح إمكانيات جديدة.
من الجدير بالذكر أن أكبر نموذج MM1، الذي يضم 30 مليار معلمة، أظهر قدرات قوية في التعلم ضمن السياق، مما مكنه من إجراء استدلال متعدد الخطوات عبر عدة صور مدخلة باستخدام تحفيز "سلسلة من الأفكار" بضع مرات. وهذا يشير إلى أن النماذج متعددة الوسائط الكبيرة يمكن أن تعالج بشكل فعال المشكلات المعقدة والمفتوحة التي تتطلب فهم اللغة الأساسية وتوليدها.
استراتيجية استثمار آبل في الذكاء الاصطناعي
تقوم آبل بزيادة استثماراتها في الذكاء الاصطناعي بشكل كبير لمواكبة المنافسين مثل جوجل ومايكروسوفت وأمازون، الذين تقدموا في دمج الذكاء الاصطناعي التوليدي في منتجاتهم. ومن المقرر أن تنفق آبل مليار دولار سنويًا على تطوير الذكاء الاصطناعي.
تشير مصادر داخلية إلى أن آبل تعمل على تطوير إطار عمل لنماذج اللغة الكبيرة يسمى "Ajax" وروبوت محادثة يعرف باسم "Apple GPT". تهدف هذه التقنيات إلى تعزيز منتجات مثل سيري، والرسائل، وموسيقى آبل، مما قد يتيح مزايا مثل إنشاء قوائم تشغيل شخصية تلقائيًا والمساعدة في كتابة التعليمات البرمجية.
أكد الرئيس التنفيذي لآبل، تيم كوك، على أهمية الذكاء الاصطناعي، قائلاً: "نعتبر الذكاء الاصطناعي وتعلم الآلة تقنيات أساسية، متكاملة تقريبًا في كل منتج نقوم بشحنه. وعلى الرغم من أنني لا أستطيع مشاركة تفاصيل محددة، يمكنكم أن تطمئنوا أننا نستثمر بشكل كبير في هذا المجال، وسنرى تقدمًا في المنتجات نتيجة لذلك."
المشهد التنافسي للذكاء الاصطناعي
استراتيجية آبل تاريخيًا كانت تفضل النهج السريع بدلاً من أن تكون رائدة في الاتجاهات التكنولوجية. ومع ذلك، ومع استعداد الذكاء الاصطناعي لإحداث ثورة في المشهد الرقمي، يصبح من الضروري على آبل الحفاظ على ميزتها التنافسية. يعكس البحث في MM1 قدرة آبل على تحقيق تقدم متطور، ولكن يبقى أن نرى ما إذا كانت الشركة ستتمكن من التصرف بسرعة كافية للنجاح في مشهد الذكاء الاصطناعي المتغير.
ستتجه الأنظار نحو مؤتمر المطورين العالمي لآبل في يونيو، حيث من المتوقع أن تظهر ميزات جديدة مدفوعة بالذكاء الاصطناعي وأدوات للمطورين. في هذه الأثناء، تعكس التطورات الصغيرة في الذكاء الاصطناعي، مثل أداة Keyframer للرسوم المتحركة، تقدمًا ثابتًا في جهود أبحاث آبل.
كما أشار تيم كوك: "نحن متحمسون لمشاركة تفاصيل عملنا المستمر في الذكاء الاصطناعي لاحقًا هذا العام." يبدو أن هذا العمل يتضمن جهودًا كبيرة للتفوق في الذكاء متعدد الوسائط، وقد نشهد قريبًا دور آبل المؤثر في عصر الذكاء الاصطناعي المتقدم الشبيه بالإنسان.