آبل في طليعة ثورة الذكاء الاصطناعي
تُعَد آبل، المعروفة بابتكاراتها التكنولوجية، مرة أخرى رائدة في مجال الذكاء الاصطناعي. وقد قدمت الشركة، التي تتخذ من كوبرتينو مقراً لها، مؤخرًا تقدمًا ملحوظًا في أبحاث الذكاء الاصطناعي من خلال ورقتين بحثيتين رائدتين، تبرز تقنيات جديدة لإنشاء صور رمزية ثلاثية الأبعاد وتحسين استنتاج نماذج اللغة. تعد هذه التطورات بتقديم تجارب بصرية غامرة وتمكين أنظمة الذكاء الاصطناعي المتقدمة من العمل بسلاسة على الأجهزة الاستهلاكية مثل الآيفون والآيباد.
صور رمزية ثلاثية الأبعاد غامرة مع HUGS
تقدم الورقة البحثية الأولى HUGS (الصور البشرية الجاوسية) كطريقة لتوليد صور رمزية ثلاثية الأبعاد متحركة من مقاطع الفيديو الأحادية القصيرة (المقاطع الملتقطة بكاميرا واحدة). ويشرح المؤلف الرئيسي محمد كوكاباس: "تقوم طريقتنا بمعالجة مقطع فيديو يحتوي على 50-100 إطارًا، وتفصل بشكل تلقائي الخلفية الثابتة عن الصورة الرمزية المتحركة في أقل من 30 دقيقة."
تستخدم HUGS تقنية عرض فعالة تُدعى "التقطيع الجاوسي الثلاثي الأبعاد" لتمثيل كل من نموذج الإنسان ومشهد الخلفية. يعتمد النموذج في البداية على شكل الجسم الإحصائي SMPL، ولكن HUGS يسمح بإجراء تعديلات، مما يلتقط تفاصيل دقيقة مثل الملابس والشعر. ويضمن وحدة تشوه عصبي جديدة رسومات متحركة واقعية من خلال دمج الخطوط العريضة بطريقة سلسة، مما ينتج حركات سلسة دون تشوهات. يضيف كوكاباس أن HUGS تسهل توليد أوضاع جديدة وإنشاء وجهات نظر جديدة لكلا من الصور الرمزية البشرية وبيئاتها.
تحقق HUGS سرعات تدريب وعرض تصل إلى 100 مرة أسرع بالمقارنة مع الطرق السابقة. بعد 30 دقيقة فقط من التحسين على وحدة معالجة رسومية للألعاب، تكون النتائج فوتوغرافية واقعية تتفوق على تقنيات متقدمة مثل Vid2Avatar وNeuMan في جودة إعادة البناء ثلاثي الأبعاد.
تتيح هذه التكنولوجيا الابتكارية للمستخدمين إدراج الصور الرمزية الرقمية في مشاهد جديدة باستخدام فيديو واحد، مع تحديث الصور 60 مرة في الثانية لتجربة سلسة وواقعية. تخيل أن يمكنك إنشاء مشاهد ثلاثية الأبعاد ديناميكية مباشرة من جهاز الآيفون الخاص بك!
تحسين كفاءة استنتاج الذكاء الاصطناعي
في الورقة الثانية، يتناول الباحثون في آبل تحديًا حاسمًا في نشر نماذج اللغة الكبيرة على الأجهزة ذات الذاكرة المحدودة. تمتلك نماذج اللغة المتقدمة مثل GPT-4 مئات المليارات من المعاملات، مما يجعل تشغيلها مكلفًا على الأجهزة الاستهلاكية.
يقلل النظام المقترح من نقل البيانات من التخزين الفلاش إلى الذاكرة الديناميكية المحدودة خلال عملية الاستنتاج. يوضح المؤلف الرئيسي كيوان علي زاده: "قمنا ببناء نموذج لتكلفة الاستنتاج يتماشى مع سلوك الذاكرة الفلاش، مما يتيح لنا تحسين نقل البيانات وقراءتها في كتل أكبر."
تقدم الأبحاث تقنيتين رئيسيتين: "تجزئة النوافذ"، التي تعيد استخدام التنشيطات الأخيرة، و"تجميع الصفوف والأعمدة"، التي تعالج كتل بيانات أكبر عن طريق تنظيم الصفوف والأعمدة معًا. على معالج Apple M1 Max، تعزز هذه الطرق زمن التأخير في الاستنتاج بمعدل 4-5 مرات، بينما يتحسن أداء وحدة المعالجة الرسومية بمعدل 20-25 مرة.
يصرح المؤلف المشارك مهرداد فرج تابار: "هذا الاختراق ضروري لنشر نماذج اللغة المتقدمة في بيئات ذات موارد محدودة، مما يعزز سهولة الوصول إليها." قد تتيح هذه التحسينات للمساعدات الذكية المعقدة والدردشة العمل بسلاسة على الآيفون والآيباد وغيرها من الأجهزة المحمولة.
رؤية استراتيجية من آبل
تسلط هذه الابتكارات الضوء على التزام آبل بأبحاث وتطبيقات الذكاء الاصطناعي. ومع ذلك، يُشدد الخبراء على أهمية التحلي بالحذر، مما يُبرز الحاجة إلى دمج هذه التقنيات بشكل مسؤول في المنتجات الاستهلاكية، خاصة فيما يتعلق بالخصوصية وسوء الاستخدام المحتمل.
بينما تواصل آبل دمج هذه التقدمات، فإنها لا تعمل فقط على تحسين أجهزتها، بل تتوقع أيضًا الطلبات المستقبلية للخدمات المدفوعة بالذكاء الاصطناعي. إن تحسين النماذج المعقدة للذكاء الاصطناعي لأجهزة ذات ذاكرة محدودة قد يمهد الطريق لجيل جديد من التطبيقات التي كانت تُعتبر غير قابلة للتطبيق من قبل.
من خلال نشر هذا البحث، تساهم آبل أيضًا في المجتمع الأكبر للذكاء الاصطناعي، مما يشجع على المزيد من التطوير في هذا المجال. تعكس هذه المبادرة ثقة آبل كزعيم في التكنولوجيا و dedication to pushing the boundaries of innovation.
إذا ما تم الاقتراب منها بعناية، فإن التقدمات الأخيرة من آبل قد تعيد تعريف مشهد الذكاء الاصطناعي. الصور الرمزية الرقمية الفوتوغرافية والمساعدات الذكية المتقدمة على الأجهزة المحمولة، التي كانت ذات يوم تُعتبر بعيدة المنال، باتت الآن في الأفق بفضل جهود آبل الرائدة.