طور باحثو Apple طريقة ثورية لتدريب نماذج اللغة الكبيرة (LLMs) والتي تدمج بسلاسة المعلومات النصية والمرئية. تُفصّل هذه الابتكار في ورقتهم البحثية المعنونة "MM1: طريقة تدريب مسبق لنماذج LLM متعددة الوسائط، التحليل والرؤى"، والتي تفتح طريقاً جديداً لإنشاء أنظمة ذكاء اصطناعي أكثر ذكاءً ومرونةً.
من خلال استخدام مجموعة بيانات متنوعة تشمل أزواج الصور والنصوص، ومستندات النصوص والصور المتداخلة، وبيانات نصية بحتة، تدعي Apple أن نموذجها MM1 يظهر دقة متفوقة في مهام مثل توليد وصف الصور، والإجابة على الأسئلة البصرية، والتفكير باللغة الطبيعية. يُحدد هذا البحث معايير جديدة في مجال الذكاء الاصطناعي من خلال التركيز على الجمع بين أنواع بيانات التدريب المختلفة وهياكل النماذج، مما يمكّن الآلات من فهم وتوليد ردود بناءً على الإشارات المرئية واللغوية. إن هذه القدرات ضرورية للمهام التي تتطلب تفسيرًا دقيقًا للعالم، مثل شرح الصور المعقدة أو الإجابة عن أسئلة تتعلق بالعناصر المرئية.
تسلط الورقة الضوء أيضًا على قدرات التعلم السياقي المثيرة للإعجاب لـ MM1، خاصة في التكوينات التي تتضمن حتى 3 مليارات معلمة. ومن الجدير بالذكر أن قدراته على "التفكير المنهجي" تتيح للنموذج حل مشكلات مفتوحة ومعقدة باستخدام أمثلة قليلة فقط.
يمثل هذا البحث خطوة كبيرة لـ Apple في تعزيز قدراتها في مجال الذكاء الاصطناعي وسط منافسة شديدة. تشير تقارير حديثة إلى أن Apple تتفاوض مع Google لترخيص نموذج Gemini التوليدي لدعم الميزات القادمة لنظام iOS 18 على هاتف iPhone.