مايكروسوفت تكشف عن VASA-1: إطار الذكاء الاصطناعي الذي يحول الصور الشخصية البشرية إلى حياة بتقنية الصوت والغناء.

Home أخبار الذكاء الاصطناعي مايكروسوفت تكشف عن VASA-1: إطار الذكاء الاصطناعي الذي يحول الصور الشخصية البشرية إلى حياة بتقنية الصوت والغناء.

Updated on أبريل 18 2024

حققت مايكروسوفت تقدمًا ملحوظًا في مجال إنشاء المحتوى المدعوم بالذكاء الاصطناعي من خلال تقديم VASA-1، إطار عمل ثوري يحول الصور الثابتة للوجه البشري إلى مقاطع فيديو ديناميكية تتحدث وتغني. يمثل هذا المشروع تغييرًا ملحوظًا في محتوى الذكاء الاصطناعي، حيث يتطلب إدخالًا بسيطًا: صورة ثابتة واحدة وملف صوتي. VASA-1 يبعث الحياة في هذه الصور، مما يمكّن من التزامن الواقعي لحركات الشفاه والتعبيرات وحركات الرأس.

وكلاء الذكاء الاصطناعي في التركيز

عرضت مايكروسوفت أمثلة متعددة على قدرات VASA-1، بما في ذلك إعادة تقديم لابتسامة مونا ليزا وهي تغني الراب. ومع ذلك، تعترف الشركة بالمخاطر المحتملة لتقنية الديب فيك. وأوضحت أن VASA-1 هو حاليًا عرض بحثي، دون خطط فورية لتسويقه.

إحياء الصور الثابتة

يمكن لأدوات الذكاء الاصطناعي في محتوى الفيديو أن تخدم أغراضًا مفيدة وضارة على حد سواء. على الرغم من قدرتها على إنشاء إعلانات جذابة، يمكن إساءة استخدامها لإنتاج مقاطع مقلقة. هناك استخدامات إيجابية لتقنية الديب فيك؛ على سبيل المثال، قد يوافق فنان على استخدام صورته الرقمية لأغراض ترويجية. يدير VASA-1 هذا الخط الدقيق من خلال "توليد وجوه قابلة للتحدث للحروف الافتراضية"، مما يعززها بمهارات عاطفية مرئية.

وفقًا لمايكروسوفت، يمكن للطراز أن يأخذ صورة ثابتة لشخص وملف صوتي للحديث لإنتاج فيديو يتزامن فيه حركات الشفاه مع الصوت ويشمل مجموعة من المشاعر، والسمات الوجهية، وحركات الرأس الطبيعية. قدمت الشركة أمثلة توضح كيف يمكن تحويل صورة واحدة إلى فيديو للفرد يتحدث أو يغني.

تحكم المستخدم في توليد الذكاء الاصطناعي

يقدم VASA-1 للمستخدمين تحكمًا دقيقًا في المحتوى الناتج، مما يسمح بتعديلات على تسلسلات الحركة واتجاه العين ووضع الرأس والتعبير العاطفي من خلال مزلقات بسيطة. يمكن أن يعمل أيضًا مع أنواع محتوى متنوعة، بما في ذلك الصور الفنية، والأصوات المغناة، وأحاديث غير الإنجليزية.

مستقبل تنفيذ VASA

بينما تبدو عينات مايكروسوفت واقعية، تكشف بعض المقاطع عن طبيعتها الناتجة عن الذكاء الاصطناعي، حيث تفتقر الحركات إلى السلاسة. تنتج هذه الطريقة مقاطع الفيديو بدقة 512 × 512 بكسل وبمعدل يصل إلى 45 إطارًا في الثانية في معالجة الدفعات غير المتصلة، مع دعم 40 إطارًا في الثانية في البث المباشر. تدعي مايكروسوفت أن VASA-1 يتفوق على الطرق الحالية بناءً على اختبارات شاملة بمعايير جديدة.

ومع ذلك، من الضروري إدراك إمكانية سوء الاستخدام في تشويه صورة الأفراد، ولهذا السبب اختارت مايكروسوفت عدم إصدار VASA-1 كمنتج تجاري أو واجهة برمجة تطبيقات. وأكدت الشركة أن جميع الصور المستخدمة في مقاطع العرض تم إنشاؤها بواسطة الذكاء الاصطناعي وأن التقنية تهدف بشكل أساسي إلى إنشاء مهارات عاطفية بصرية إيجابية لشخصيات AI الافتراضية، بدلاً من المحتوى المضلل.

على المدى الطويل، تتوقع مايكروسوفت أن يمهد VASA-1 الطريق لإنشاء صور رمزية واقعية تحاكي الحركات والمشاعر الإنسانية. يمكن أن يعزز هذا التقدم العدالة التعليمية، ويحسن إمكانية الوصول للذين يواجهون تحديات في التواصل، ويوفر صحبة أو دعمًا علاجيًا للأفراد المحتاجين.

ميتا تتبنى بنية المحولات مع إطلاق نموذج ميغالودون للغة.

لاما 3 تطلق مع إصدار شات بوت الذكاء الاصطناعي المستقل الجديد من ميتا

Most people like

Crafter.ai Platform

5.6K

فتح إمكانيات الذكاء الاصطناعي للدردشة يمكن أن يُحَوِّل تفاعلاتك من خلال تجارب محادثة مخصصة. مع التكنولوجيا المتقدمة، تم تصميم هذه الدردشة للتفاعل مع المستخدمين بفعالية، حيث تقدم ردودًا مخصصة تعزز التواصل. استكشف كيف يمكن أن يُرفع دمج الدردشات الذكية في استراتيجيتك من رضا العملاء ويعزز الروابط ذات المغزى.

روبوت الدردشة الذكي AI Chatbot

FakeYou:Celebrity Voice Generator

1.1M

أنشئ خطابًا واقعيًا وطبيعيًا بسهولة مع FakeYou، مستفيدًا من تكنولوجيا التزييف العميق المتقدمة. استمتع بتقنية توليد الصوت المتطورة التي تحول النص إلى صوت حي، مثالية لمجموعة متنوعة من التطبيقات.

نص إلى كلام AI Celebrity Voice Generator

zhida.ai

zhida.ai هو منتج بحث بالذكاء الاصطناعي أطلقته شركة Zhihu، ويهدف إلى مساعدة المستخدمين على ”اكتشاف العالم من خلال الأسئلة“. يمكن للمستخدمين طرح أي أسئلة عبر الإنترنت والحصول على إجابات عليها.

إجابة على الأسئلة AI Search Engine

Submagic

5.3M

قم بإنشاء عناوين جذابة مليئة بالرموز التعبيرية لمحتواك القصير. تفاعل مع جمهورك واجعل منشوراتك تبرز!

تسميات الذكاء الاصطناعي Captions or Subtitle

Find AI tools in YBX