رئيس قسم الذكاء الاصطناعي في ميتا، يان لوكن، لطالما دعا إلى تطوير أنظمة التعلم الآلي (ML) التي يمكنها استكشاف وفهم البيئات المحيطة بها بشكل مستقل مع الحد الأدنى من التوجيه البشري. أحدث تطور من ميتا، V-JEPA (الهندسة التنبؤية المشتركة للفيديو)، يقترب من هذا الهدف الطموح.
يهدف V-JEPA إلى تقليد قدرات البشر والحيوانات في التنبؤ بكيفية تفاعل الأجسام. ويتم ذلك من خلال تعلم تمثيلات مجردة من لقطات الفيديو الخام.
كيف يعمل V-JEPA
تخيل فيديو لكرة تسير نحو حائط، حيث تتوقع أن ترتد عند الاصطدام. تشكل هذه الملاحظات الأساسية أساس كيفية تعلمنا تفسير العالم في مراحل مبكرة من الحياة، غالبًا قبل اكتساب مهارات اللغة. يعتمد V-JEPA على نهج مشابه يسمى "التعلم الذاتي الإشرافي"، مما يلغي الحاجة إلى بيانات مصنفة بواسطة البشر. خلال التدريب، يتلقى النموذج مقاطع فيديو مع بعض الأجزاء مغلقة، مما يحثه على التنبؤ بالمحتوى المخفي. لا يهدف إلى إعادة إنشاء كل بيكسل؛ بل يحدد مجموعة مضغوطة من الميزات الكامنة التي توضح كيفية تفاعل العناصر في المشهد. يقارن V-JEPA توقعاته بمحتوى الفيديو الفعلي، ويعدل معاييره بناءً على الفروقات.
من خلال التركيز على التمثيلات الكامنة، يعزز V-JEPA استقرار وكفاءة النموذج. بدلاً من التركيز على مهمة واحدة، يتدرب على مقاطع فيديو متنوعة تعكس تباين العالم الحقيقي. قام الباحثون بتنفيذ استراتيجية تغطية متخصصة تشجع النموذج على فهم التفاعلات العميقة بين الأجسام بدلاً من الاعتماد على اختصارات سطحية.
بعد تدريب شامل على الفيديو، يطور V-JEPA نموذجًا قويًا لفهم العالم الفيزيائي، قادرًا على استيعاب التفاعلات المعقدة بين الأجسام. تم اقتراح V-JEPA من قبل لوكن في عام 2022، وهو تطور لنموذج I-JEPA الذي أُطلق العام الماضي وركز على الصور. على العكس، يقوم V-JEPA بتحليل مقاطع الفيديو، مستفيدا من بُعدها الزمني لتطوير تمثيلات أكثر تجانسًا.
V-JEPA في العمل
كنموذج أساسي، يعمل V-JEPA كنظام متعدد الاستخدامات يمكن تكييفه لمهام متنوعة. على عكس الحاجة الشائعة لضبط معظم نماذج التعلم الآلي، يمكن استخدام V-JEPA مباشرة كمدخل لنماذج التعلم العميق الصغيرة التي تتطلب نسبة ضئيلة من الأمثلة المصنفة لربط تمثيلاته بالمهام المحددة مثل تصنيف الصور، وتصنيف الإجراءات، وكشف الإجراءات الزمانية المكانية. هذه الهندسة ليست فقط فعالة من حيث الموارد ولكنها أيضًا أسهل في الإدارة.
تثبت هذه القدرات قيمتها في مجالات مثل الروبوتات والسيارات ذاتية القيادة، حيث يجب على الأنظمة فهم والتNavigating البيئات المحيطة بها بنموذج واقعي للعالم.
يقول لوكن: "يعتبر V-JEPA خطوة نحو فهم أكثر واقعية للعالم، مما يمكّن الآلات من الانخراط في التفكير العام والتخطيط".
على الرغم من تقدماته، لا يزال هناك مجال لتحسين V-JEPA. حاليًا، يتميز بالتفكير في تسلسل الزمان القصير، لكن التحدي التالي لفريق البحث في ميتا هو توسيع أفقه الزمني. بالإضافة إلى ذلك، يهدفون إلى ردم الفجوة بين JEPA والذكاء الطبيعي من خلال التجريب مع التمثيلات متعددة الوسائط. جعلت ميتا V-JEPA متاحًا بموجب رخصة المشاع الإبداعي غير التجارية، مما يدعو إلى التعاون والتجريب من قبل مجتمع البحث.
عند التفكير في مجال الذكاء الاصطناعي، قارن لوكن الذكاء بكعكة، حيث يشكل التعلم الذاتي الإشرافي الجزء الأكبر، بينما يعتبر التعلم الإشرافي الكريمة، والتعلم التعزيزي هو الكرز في الأعلى.
بينما حققنا خطوات كبيرة، نحن فقط في بداية اكتشاف الإمكانيات الكاملة للذكاء الاصطناعي.