طور فريق من الباحثين الدوليين نظام ذكاء صناعي مبتكر يسمى Live2Diff، قادر على تحويل تدفقات الفيديو الحية إلى محتوى بأسلوب مميز في الوقت الحقيقي تقريبًا. تعالج هذه التقنية الفيديو بمعدل 16 إطار في الثانية على أجهزة المستهلك عالية المستوى، مع إمكانيات قد تعيد تشكيل تجارب الترفيه والواقع المعزز.
يعد Live2Diff ثمرة تعاون بين علماء من مختبر الذكاء الصناعي في شنغهاي ومعهد ماكس بلانك للمعلوماتية وجامعة نانيانغ التكنولوجية. وهو أول تنفيذ ناجح لنمذجة الانتباه أحادي الاتجاه في نماذج انتشار الفيديو، موجه خصيصًا لمعالجة الفيديو المباشر.
يفصل الباحثون عملهم في ورقة بحثية نُشرت على arXiv، حيث صرحوا: "نقدم Live2Diff، وهي أول محاولة لتصميم نموذج انتشار فيديو باستخدام الانتباه الزمني أحادي الاتجاه، موجهة خصيصًا لترجمة فيديوهات البث المباشر."
تتعامل هذه الطريقة الجديدة مع تحدٍ حاسم في الذكاء الاصطناعي للفيديو. تعتمد النماذج التقليدية على الانتباه ثنائي الاتجاه، الذي يفحص الإطارات المستقبلية ويعيق المعالجة في الوقت الحقيقي. في المقابل، يستخدم Live2Diff نهجًا أحادي الاتجاه للحفاظ على التناسق الزمني من خلال ربط كل إطار بسابقيه وعدد قليل من الإطارات الدافئة الأولية، مما يلغي الحاجة إلى البيانات المستقبلية.
يبرز Live2Diff قدراته من خلال تحويل لقطات الفيديو المباشر لكاميرات الويب التي تُظهر الوجوه البشرية إلى شخصيات بأسلوب الأنمي في الوقت الفعلي. تُظهِر التجارب الشاملة أن النظام يتميز بالسلاسة الزمنية والكفاءة، مما يؤكده مقاييس كمية ودراسات مستخدميه.
يلاحظ الدكتور كاي تشين، المؤلف الرئيسي للمشروع من مختبر الذكاء الصناعي في شنغهاي: "تضمن طريقتنا التناسق الزمني والسلاسة دون الاعتماد على الإطارات المستقبلية. هذا يفتح آفاقًا جديدة لترجمة ومعالجة الفيديو المباشر."
تتمتع Live2Diff بتبعات كبيرة. في قطاع الترفيه، قد تعيد تعريف البث المباشر والفعاليات الافتراضية، مما يسمح للفنانين بالتحول الفوري إلى شخصيات متحركة أو تمكين بث مباشر للرياضات حيث يظهر الرياضيون كأبطال خارقين في الوقت الفعلي. بالنسبة لمنشئي المحتوى والمؤثرين، توفر هذه التقنية وسيلة جديدة للتعبير الإبداعي أثناء البث المباشر أو مكالمات الفيديو.
في الواقع المعزز (AR) والواقع الافتراضي (VR)، تعزز Live2Diff التجارب الغامرة من خلال تمكين نقل أنماط في الوقت الحقيقي في تغذيات الفيديو المباشرة. قد تسهم هذه التطورات في سد الفجوة بين العالم الحقيقي والبيئات الافتراضية، مما يؤثر على الألعاب والسياحة الافتراضية والمجالات المهنية مثل العمارة والتصميم، حيث يمكن أن يساعد التصور الفوري للبيئات بأسلوب مميز في اتخاذ القرارات.
بينما تبشر Live2Diff بإمكانيات مثيرة، فإنها تثير أيضًا مخاوف أخلاقية واجتماعية. يمكن أن تؤدي القدرة على التلاعب بتدفقات الفيديو الحية إلى إنشاء محتوى مضلل أو "ديب فيك"، مما يجعل الحدود بين الواقع والتمثيل الرقمي غير واضحة. مع تطور هذه التكنولوجيا، من الضروري أن يتعاون المطورون وصناع السياسات والأخلاقيون لوضع معايير للاستخدام المسؤول.
ستصدر الشيفرة الكاملة لـ Live2Diff قريبًا، وقد جعل فريق البحث ورقتهم متاحة للجمهور وينوي فتح مصدر تطبيقهم. من المتوقع أن يُلهم هذا المبادرة مزيدًا من الابتكار في الذكاء الاصطناعي للفيديو في الوقت الحقيقي.
بينما تستمر التطورات في الذكاء الاصطناعي بمجال معالجة الوسائط، تمثل Live2Diff نقطة تحول هامة. قد تُمكّن قدرتها على تحويل تدفقات الفيديو الحية بسرعات قريبة الفورية من فتح آفاق جديدة في بث الأحداث المباشرة ومؤتمرات الفيديو من الجيل التالي، ودفع حدود التلاعب بالفيديو المدفوع بالذكاء الاصطناعي في الوقت الحقيقي.