نظام الذكاء الاصطناعي المبتكر من Alibaba 'EMO' يُنتج فيديوهات واقعية تتحدث وتغني باستخدام صورك.

كشف الباحثون في معهد الذكاء الحاسوبي التابع لشركة Alibaba عن نظام “EMO” (Emote Portrait Alive)، وهو نظام ذكاء اصطناعي مبتكر قادر على تحريك صورة بورتريه واحدة لإنشاء مقاطع فيديو حيّة لأفراد يتحدثون أو يغنون.

كما أوضح الباحثون في ورقة بحثية منشورة على arXiv، يقوم EMO بتوليد حركات وجهية سلسة وتوجهات رأس معبرة تتماشى تمامًا مع تفاصيل المقطع الصوتي المقدم. يُعتبر هذا تقدمًا كبيرًا في مجال إنشاء مقاطع الفيديو التي تعتمد على الصوت، والتي شكلت تحديات للباحثين في الذكاء الاصطناعي على مدى سنوات.

قال المؤلف الرئيسي لين روي تيان: “غالبًا ما تكافح التقنيات التقليدية لالتقاط الطيف الكامل من التعبيرات البشرية وفرادى أنماط الوجه.” وأضاف: “للتغلب على هذه التحديات، نقترح EMO، وهو إطار عمل جديد يستخدم نهج تحويل الصوت إلى فيديو مباشر، مما يلغي الحاجة إلى نماذج ثلاثية الأبعاد أو معالم وجهية.”

تحويل الصوت إلى فيديو مباشرةً

يعتمد نظام EMO على نموذج انتشار، وهي تقنية ذكاء اصطناعي قوية معروفة بقدرتها على إنتاج صور اصطناعية واقعية. تم تدريب EMO على مجموعة بيانات تضم أكثر من 250 ساعة من مقاطع الفيديو للمتحدثين، مستمدة من خطب وأفلام وبرامج تلفزيونية وعروض موسيقية.

على عكس الطرق السابقة التي تعتمد على نماذج ثلاثية الأبعاد للوجه أو أشكال مختلطة، يقوم EMO بتحويل موجات الصوت مباشرة إلى إطارات فيديو. تتيح هذه القدرة للنظام التقاط الحركات الدقيقة والخصائص الفريدة المرتبطة بالكلام الطبيعي.

جودة الفيديو والتعبير المحسن

تشير النتائج البحثية إلى أن EMO يتفوق بشكل كبير على الأساليب المتقدمة الحالية من حيث جودة الفيديو، والحفاظ على الهوية، والقدرة التعبيرية. أظهرت دراسة مستخدمين أن مقاطع الفيديو التي أنتجها EMO كانت تُعتبر أكثر طبيعية وعاطفية مقارنة بتلك التي أنتجتها أنظمة منافسة.

تحريك غنائي واقعي

بالإضافة إلى مقاطع الفيديو الحوارية، يمكن لـ EMO تحريك صور غنائية، مما يخلق أشكال فم دقيقة وميزات وجهية معبرة تتزامن مع العروض الصوتية. يمكن للنظام إنتاج مقاطع فيديو بطول عشوائي استنادًا إلى مدة الصوت المدخل.

تقول الأبحاث: “تظهر النتائج التجريبية أن EMO لا ينتج فقط مقاطع فيديو مقنعة للحديث، بل أيضًا تحريكات غنائية بأساليب متنوعة، متفوقًا بشكل كبير على الأساليب الحالية من حيث التعبيرية والواقعية.”

تُشير التطورات التي يقدمها EMO إلى مستقبل يمكن فيه توليد محتوى فيديو مخصص بسهولة من صورة واحدة ومقطع صوتي. ومع ذلك، تظل المخاوف الأخلاقية قائمة بشأن الاستخدام المحتمل لهذه التكنولوجيا في انتحال الهوية أو نشر المعلومات المضللة. يلتزم الباحثون بالاستكشاف أساليب للكشف عن الفيديوهات الاصطناعية لمعالجة هذه القضايا.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles