كشف باحثو جوجل عن نظام مبتكر للذكاء الاصطناعي يُدعى VLOGGER، قادر على إنتاج فيديوهات واقعية لأشخاص يتحدثون، ويتفاعلون، ويتحركون، انطلاقاً من صورة ثابتة واحدة فقط. تستخدم هذه التكنولوجيا الرائدة نماذج التعلم الآلي المتقدمة لإنشاء مقاطع فيديو واقعية بشكل ملحوظ، مما يوفر العديد من الاستخدامات المحتملة ويثير أيضاً مخاوف بشأن الصور العميقة والمعلومات المضللة.
في الورقة البحثية المعنونة "VLOGGER: الانتشار متعدد الأنماط لتوليد الصور الرمزية الجسدية"، يوضح الفريق كيفية استخدام نموذج الذكاء الاصطناعي لصورة شخص مع مقطع صوتي لتوليد فيديو يُظهر الشخص وهو يتحدث، مع تعبيرات وجهية وحركات رأس وإيماءات متوافقة. ورغم بعض العيوب، تعكس هذه الفيديوهات تقدماً كبيراً في تحريك الصور الثابتة.
ثورة في التواصل الاصطناعي
قادت إنريك كورونا من جوجل للأبحاث الفريق، حيث استخدموا نماذج الانتشار، وهي أسماء بارزة في التعلم الآلي معروفة بقدرتها على توليد صور واقعية من وصف نصي. من خلال تعديل هذه النماذج لتوليد الفيديو وتدريبها على مجموعة بيانات جديدة وشاملة، تمكن الباحثون من إنشاء نظام يقوم بتحريك الصور بشكل مقنع.
يلاحظ المؤلفون: "على عكس الطرق السابقة، لا تتطلب طريقتنا تدريباً فردياً، تتجنب كشف وقطع الوجه، تنتج صوراً كاملة، وتتناول مجموعة واسعة من السيناريوهات المهمة للتواصل البشري الواقعي."
كان عنصر رئيسي في هذا النجاح هو إنشاء مجموعة بيانات شاملة تُدعى MENTOR، التي تشمل أكثر من 800,000 هوية متنوعة و2,200 ساعة من الفيديو، مما يتجاوز بشكل كبير مجموعات البيانات السابقة. يسمح هذا التنوع لـ VLOGGER بإنشاء فيديوهات تعرض أشخاصًا من أعراق وأعمار وأزياء وأوضاع وخلفيات متعددة دون تحيّز.
تطبيقات مثيرة وآثار أخلاقية
يفتح VLOGGER آفاقًا لتطبيقات مثيرة. يبرز البحث قدرة النظام على دبلجة الفيديوهات تلقائيًا إلى لغات مختلفة من خلال استبدال المسار الصوتي، وتحرير واستكمال إطارات الفيديو بسلاسة، وإنشاء فيديوهات كاملة من صورة واحدة.
تشمل التطبيقات المحتملة ترخيص الممثلين لنماذج ثلاثية الأبعاد مفصلة لأنفسهم للأداء الجديد، وإنشاء رسوم رمزية فوتوغرافية للواقع الافتراضي والألعاب، وتطوير مساعدين افتراضيين ودردشة مدعومة بالذكاء الاصطناعي أكثر تعبيراً وجاذبية.
تتخيل جوجل VLOGGER كخطوة نحو "وكلاء محادثة مجسّدة" يتفاعلون بشكل طبيعي مع البشر باستخدام الكلام والإيماءات والتواصل البصري. يصرح المؤلفون أن VLOGGER يمكن أن يكون حلاً مستقلاً للعروض التقديمية والتعليم والسرد والتواصل منخفض النطاق، بل ويمكن أن يعزز التفاعلات النصية فقط بين البشر وأجهزة الكمبيوتر.
ومع ذلك، تطرح هذه التكنولوجيا مخاطر، خاصة فيما يتعلق بإنشاء الصور العميقة—وسائط اصطناعية يمكن أن تستبدل الأفراد في الفيديوهات بأشخاص آخرين. مع ازدياد واقعية الفيديوهات المولدة بواسطة الذكاء الاصطناعي وسهولة الوصول إليها، يمكن أن تنمو التحديات المتعلقة بالمعلومات المضللة والتلاعب الرقمي.
أفق جديد في ابتكارات الذكاء الاصطناعي
على الرغم من قدراتها المثيرة، تعاني VLOGGER من بعض القيود. حيث تميل الفيديوهات المولدة إلى أن تكون قصيرة وتتميز بخلفيات ثابتة، كما تفتقر الشخصيات إلى الحركة داخل فضاء ثلاثي الأبعاد. بالرغم من أن الحركات وأنماط الكلام تبدو واقعية، إلا أنها ليست متطابقة تمامًا مع تلك الخاصة بالبشر الحقيقيين بعد.
ومع ذلك، تعتبر VLOGGER تقدمًا كبيرًا. يلاحظ المؤلفون: "قمنا بتقييم VLOGGER عبر ثلاثة معايير مختلفة، مما يوضح أن نموذجنا يتفوق في جودة الصورة، والحفاظ على الهوية، والتناسق الزمني."
مع استمرار تطور الوسائط المولدة بالذكاء الاصطناعي، قد تصبح شائعة قريبًا، مما يؤدي إلى واقع تصبح فيه التفرقة بين الأشخاص الحقيقيين والتمثيلات المولدة بالذكاء الاصطناعي أكثر تعقيدًا.
تقدم VLOGGER لمحة عن هذا المستقبل، مُظهرًا التقدم السريع في الذكاء الاصطناعي بينما يبرز الصعوبات المتزايدة في التمييز بين الأصالة والاصطناعية.