قدّم باحثو جوجل تقنية "VLOGGER": ذكاء اصطناعي يحوّل الصور الثابتة إلى حياة نابضة.

Home أخبار الذكاء الاصطناعي قدّم باحثو جوجل تقنية "VLOGGER": ذكاء اصطناعي يحوّل الصور الثابتة إلى حياة نابضة.

Updated on مارس 17 2024

كشف باحثو جوجل عن نظام مبتكر للذكاء الاصطناعي يُدعى VLOGGER، قادر على إنتاج فيديوهات واقعية لأشخاص يتحدثون، ويتفاعلون، ويتحركون، انطلاقاً من صورة ثابتة واحدة فقط. تستخدم هذه التكنولوجيا الرائدة نماذج التعلم الآلي المتقدمة لإنشاء مقاطع فيديو واقعية بشكل ملحوظ، مما يوفر العديد من الاستخدامات المحتملة ويثير أيضاً مخاوف بشأن الصور العميقة والمعلومات المضللة.

في الورقة البحثية المعنونة "VLOGGER: الانتشار متعدد الأنماط لتوليد الصور الرمزية الجسدية"، يوضح الفريق كيفية استخدام نموذج الذكاء الاصطناعي لصورة شخص مع مقطع صوتي لتوليد فيديو يُظهر الشخص وهو يتحدث، مع تعبيرات وجهية وحركات رأس وإيماءات متوافقة. ورغم بعض العيوب، تعكس هذه الفيديوهات تقدماً كبيراً في تحريك الصور الثابتة.

ثورة في التواصل الاصطناعي

قادت إنريك كورونا من جوجل للأبحاث الفريق، حيث استخدموا نماذج الانتشار، وهي أسماء بارزة في التعلم الآلي معروفة بقدرتها على توليد صور واقعية من وصف نصي. من خلال تعديل هذه النماذج لتوليد الفيديو وتدريبها على مجموعة بيانات جديدة وشاملة، تمكن الباحثون من إنشاء نظام يقوم بتحريك الصور بشكل مقنع.

يلاحظ المؤلفون: "على عكس الطرق السابقة، لا تتطلب طريقتنا تدريباً فردياً، تتجنب كشف وقطع الوجه، تنتج صوراً كاملة، وتتناول مجموعة واسعة من السيناريوهات المهمة للتواصل البشري الواقعي."

كان عنصر رئيسي في هذا النجاح هو إنشاء مجموعة بيانات شاملة تُدعى MENTOR، التي تشمل أكثر من 800,000 هوية متنوعة و2,200 ساعة من الفيديو، مما يتجاوز بشكل كبير مجموعات البيانات السابقة. يسمح هذا التنوع لـ VLOGGER بإنشاء فيديوهات تعرض أشخاصًا من أعراق وأعمار وأزياء وأوضاع وخلفيات متعددة دون تحيّز.

تطبيقات مثيرة وآثار أخلاقية

يفتح VLOGGER آفاقًا لتطبيقات مثيرة. يبرز البحث قدرة النظام على دبلجة الفيديوهات تلقائيًا إلى لغات مختلفة من خلال استبدال المسار الصوتي، وتحرير واستكمال إطارات الفيديو بسلاسة، وإنشاء فيديوهات كاملة من صورة واحدة.

تشمل التطبيقات المحتملة ترخيص الممثلين لنماذج ثلاثية الأبعاد مفصلة لأنفسهم للأداء الجديد، وإنشاء رسوم رمزية فوتوغرافية للواقع الافتراضي والألعاب، وتطوير مساعدين افتراضيين ودردشة مدعومة بالذكاء الاصطناعي أكثر تعبيراً وجاذبية.

تتخيل جوجل VLOGGER كخطوة نحو "وكلاء محادثة مجسّدة" يتفاعلون بشكل طبيعي مع البشر باستخدام الكلام والإيماءات والتواصل البصري. يصرح المؤلفون أن VLOGGER يمكن أن يكون حلاً مستقلاً للعروض التقديمية والتعليم والسرد والتواصل منخفض النطاق، بل ويمكن أن يعزز التفاعلات النصية فقط بين البشر وأجهزة الكمبيوتر.

ومع ذلك، تطرح هذه التكنولوجيا مخاطر، خاصة فيما يتعلق بإنشاء الصور العميقة—وسائط اصطناعية يمكن أن تستبدل الأفراد في الفيديوهات بأشخاص آخرين. مع ازدياد واقعية الفيديوهات المولدة بواسطة الذكاء الاصطناعي وسهولة الوصول إليها، يمكن أن تنمو التحديات المتعلقة بالمعلومات المضللة والتلاعب الرقمي.

أفق جديد في ابتكارات الذكاء الاصطناعي

على الرغم من قدراتها المثيرة، تعاني VLOGGER من بعض القيود. حيث تميل الفيديوهات المولدة إلى أن تكون قصيرة وتتميز بخلفيات ثابتة، كما تفتقر الشخصيات إلى الحركة داخل فضاء ثلاثي الأبعاد. بالرغم من أن الحركات وأنماط الكلام تبدو واقعية، إلا أنها ليست متطابقة تمامًا مع تلك الخاصة بالبشر الحقيقيين بعد.

ومع ذلك، تعتبر VLOGGER تقدمًا كبيرًا. يلاحظ المؤلفون: "قمنا بتقييم VLOGGER عبر ثلاثة معايير مختلفة، مما يوضح أن نموذجنا يتفوق في جودة الصورة، والحفاظ على الهوية، والتناسق الزمني."

مع استمرار تطور الوسائط المولدة بالذكاء الاصطناعي، قد تصبح شائعة قريبًا، مما يؤدي إلى واقع تصبح فيه التفرقة بين الأشخاص الحقيقيين والتمثيلات المولدة بالذكاء الاصطناعي أكثر تعقيدًا.

تقدم VLOGGER لمحة عن هذا المستقبل، مُظهرًا التقدم السريع في الذكاء الاصطناعي بينما يبرز الصعوبات المتزايدة في التمييز بين الأصالة والاصطناعية.

استوديوهات الألعاب تتكيف وتزدهر في سوق متغير | Unity

أطلق Musk برنامج Grok AI كبرمجيات مفتوحة المصدر

Most people like

Airstrip

5.6K

تقديم مساعد قانوني مدعوم بالذكاء الاصطناعي مصمم خصيصاً للشركات الناشئة. استكشف تعقيدات المتطلبات القانونية بسهولة وثقة.

الذكاء الاصطناعي Legal Assistant

interviewsby.ai

53.2K

Interviewsby.ai تقدم مقابلات تجريبية مصممة خصيصًا مع تغذية راجعة فورية مدعومة بتقنية ChatGPT.

تمرين المقابلة AI Coaching

Sparkpages AI

1.1M

في عصر يتوفر فيه المعلومات بكثرة ولكن غالباً ما تكون مضللة، قد تبدو مهمة العثور على محتوى موثوق بها مرهقة. محرك البحث المدعوم بالذكاء الاصطناعي لدينا مصمم لتقليل الضوضاء، موفرًا لك نتائج غير متحيزة وموثوقة تتناسب مع احتياجاتك. اكتشف طريقة جديدة لتصفح الويب، تضمن أن تكون عمليات بحثك مركزة ودقيقة وخالية من التلاعب. اكتشف مستقبل البحث بثقة ووضوح.

محرك وكيل الذكاء الاصطناعي Other

AgentQL

24K

نقدم لكم منصة مؤتمتة تعتمد على الذكاء الاصطناعي لأتمتة الويب واستخراج البيانات، مصممة لتبسيط عملياتك على الإنترنت. تعتمد حلولنا المتطورة على الذكاء الاصطناعي لجمع البيانات بكفاءة من مختلف المواقع، مما يتيح للشركات أتمتة المهام المتكررة وزيادة الإنتاجية. اكتشف كيف يمكن لمنصتنا تحويل عملياتك وفتح آفاق جديدة من المعلومات القيمة من الإنترنت بسهولة.

استخراج البيانات Web Scraping

Find AI tools in YBX