آبل تكشف عن MM1.5: نموذج الذكاء الاصطناعي متعدد المهام بقيمة 30 مليار دولار، مع ميزات التعرف على الصور وفهم اللغة الطبيعية

أطلقت Apple مؤخرًا نموذج الذكاء الاصطناعي متعدد الأنماط الأحدث لديها، MM1.5، الذي يتميز بمقياس معلمات يصل إلى 30 مليار. يبني هذا الإصدار الجديد على نموذج MM1 السابق مع تحسينات كبيرة.

يتبع نموذج MM1.5 مبادئ التدريب القائمة على البيانات، حيث يتم فحص تأثير البيانات المختلطة على أداء النموذج عبر دورات تدريبية متنوعة. تم نشر الوثائق الخاصة بالنموذج الجديد على منصة Hugging Face. يقدم مجموعة من تكوينات المعلمات تتراوح من 1 مليار إلى 30 مليار، مما يظهر قدراته في التعرف على الصور واستنتاج اللغة الطبيعية.

في هذا التحديث، قامت فريق البحث لدى Apple بتحسين استراتيجية خلط البيانات، مما أدى إلى تعزيزات كبيرة في أداء النموذج في مجالات مثل فهم الصور النصية المتعددة، الإشارة البصرية والتحديد، والاستدلال على الصور المتعددة. تشير الدراسات إلى أنه خلال مرحلة التدريب المسبق لنموذج MM1.5، ساهم دمج بيانات OCR عالية الجودة ووصف الصور الاصطناعية بشكل كبير في تعزيز قدرة النموذج على فهم الصور التي تحتوي على نصوص كبيرة. بالإضافة إلى ذلك، خلال مرحلة التعديل الإشرافي، قام الفريق بتحليل تأثير أنواع البيانات المختلفة على أداء النموذج، حيث تم تحسين تكوينات بيانات تدريب التعليم البصري، مما يتيح للنماذج الأصغر (مثل تلك التي تحتوي على 1 مليار و3 مليار من المعلمات) تحقيق نتائج رائعة.

علاوة على ذلك، قدمت Apple نماذج متخصصة مثل MM1.5-Video لفهم الفيديو وMM1.5-UI لفهم واجهة المستخدم على الأجهزة المحمولة. من المقرر أن يصبح نموذج MM1.5-UI حجر الزاوية لتقنية الذكاء الاصطناعي في نظام iOS، حيث يتعامل بكفاءة مع مهام الإشارة البصرية والتحديد، وحتى تلخيص وظائف الشاشة أو التفاعل من خلال محادثات المستخدم.

على الرغم من الأداء المتميز لنموذج MM1.5 عبر عدة معايير، فإن فريق Apple ملتزم بمواصلة تعزيز قدرة الذكاء الاصطناعي من خلال دمج البيانات النصية والصورية وتفاعلات المستخدم، لتطوير هياكل أكثر تعقيدًا. تهدف هذه الجهود المستمرة إلى تعزيز فعالية الذكاء الاصطناعي "بعلامة Apple"، مما يجعله أكثر قوة في فهم واجهة مستخدم الأجهزة المحمولة.

Most people like

Find AI tools in YBX