حققت مايكروسوفت تقدمًا ملحوظًا في مجال إنشاء المحتوى المدعوم بالذكاء الاصطناعي من خلال تقديم VASA-1، إطار عمل ثوري يحول الصور الثابتة للوجه البشري إلى مقاطع فيديو ديناميكية تتحدث وتغني. يمثل هذا المشروع تغييرًا ملحوظًا في محتوى الذكاء الاصطناعي، حيث يتطلب إدخالًا بسيطًا: صورة ثابتة واحدة وملف صوتي. VASA-1 يبعث الحياة في هذه الصور، مما يمكّن من التزامن الواقعي لحركات الشفاه والتعبيرات وحركات الرأس.
وكلاء الذكاء الاصطناعي في التركيز
عرضت مايكروسوفت أمثلة متعددة على قدرات VASA-1، بما في ذلك إعادة تقديم لابتسامة مونا ليزا وهي تغني الراب. ومع ذلك، تعترف الشركة بالمخاطر المحتملة لتقنية الديب فيك. وأوضحت أن VASA-1 هو حاليًا عرض بحثي، دون خطط فورية لتسويقه.
إحياء الصور الثابتة
يمكن لأدوات الذكاء الاصطناعي في محتوى الفيديو أن تخدم أغراضًا مفيدة وضارة على حد سواء. على الرغم من قدرتها على إنشاء إعلانات جذابة، يمكن إساءة استخدامها لإنتاج مقاطع مقلقة. هناك استخدامات إيجابية لتقنية الديب فيك؛ على سبيل المثال، قد يوافق فنان على استخدام صورته الرقمية لأغراض ترويجية. يدير VASA-1 هذا الخط الدقيق من خلال "توليد وجوه قابلة للتحدث للحروف الافتراضية"، مما يعززها بمهارات عاطفية مرئية.
وفقًا لمايكروسوفت، يمكن للطراز أن يأخذ صورة ثابتة لشخص وملف صوتي للحديث لإنتاج فيديو يتزامن فيه حركات الشفاه مع الصوت ويشمل مجموعة من المشاعر، والسمات الوجهية، وحركات الرأس الطبيعية. قدمت الشركة أمثلة توضح كيف يمكن تحويل صورة واحدة إلى فيديو للفرد يتحدث أو يغني.
تحكم المستخدم في توليد الذكاء الاصطناعي
يقدم VASA-1 للمستخدمين تحكمًا دقيقًا في المحتوى الناتج، مما يسمح بتعديلات على تسلسلات الحركة واتجاه العين ووضع الرأس والتعبير العاطفي من خلال مزلقات بسيطة. يمكن أن يعمل أيضًا مع أنواع محتوى متنوعة، بما في ذلك الصور الفنية، والأصوات المغناة، وأحاديث غير الإنجليزية.
مستقبل تنفيذ VASA
بينما تبدو عينات مايكروسوفت واقعية، تكشف بعض المقاطع عن طبيعتها الناتجة عن الذكاء الاصطناعي، حيث تفتقر الحركات إلى السلاسة. تنتج هذه الطريقة مقاطع الفيديو بدقة 512 × 512 بكسل وبمعدل يصل إلى 45 إطارًا في الثانية في معالجة الدفعات غير المتصلة، مع دعم 40 إطارًا في الثانية في البث المباشر. تدعي مايكروسوفت أن VASA-1 يتفوق على الطرق الحالية بناءً على اختبارات شاملة بمعايير جديدة.
ومع ذلك، من الضروري إدراك إمكانية سوء الاستخدام في تشويه صورة الأفراد، ولهذا السبب اختارت مايكروسوفت عدم إصدار VASA-1 كمنتج تجاري أو واجهة برمجة تطبيقات. وأكدت الشركة أن جميع الصور المستخدمة في مقاطع العرض تم إنشاؤها بواسطة الذكاء الاصطناعي وأن التقنية تهدف بشكل أساسي إلى إنشاء مهارات عاطفية بصرية إيجابية لشخصيات AI الافتراضية، بدلاً من المحتوى المضلل.
على المدى الطويل، تتوقع مايكروسوفت أن يمهد VASA-1 الطريق لإنشاء صور رمزية واقعية تحاكي الحركات والمشاعر الإنسانية. يمكن أن يعزز هذا التقدم العدالة التعليمية، ويحسن إمكانية الوصول للذين يواجهون تحديات في التواصل، ويوفر صحبة أو دعمًا علاجيًا للأفراد المحتاجين.