منذ أن قدمت OpenAI نموذجها لإنشاء الفيديوهات باستخدام الذكاء الاصطناعي Sora في وقت سابق من هذا العام، لم يضاهِ أي منافس واقعيته وجودته - حتى الآن.
خلال مؤتمر المطورين السنوي I/O، أعلنت Google عن Veo، نموذج جديد للذكاء الاصطناعي التوليدي للفيديو تم تطويره من قبل قسم DeepMind الشهير. تصف Google Veo بأنه قادر على إنتاج "مقاطع عالية الجودة بدقة 1080p تتجاوز مدتها 60 ثانية". وفقًا لمنشور على حساب DeepMind في X، يتعامل النموذج مع مجموعة متنوعة من الأنماط السينمائية، بدءًا من الواقعية التصويرية والسريالية وصولًا إلى الرسوم المتحركة.
على صفحة المنتج، تفيد Google بأن الهدف من Veo هو "جعل إنتاج الفيديو متاحًا للجميع"، سواء كان المستخدمون مخرجين محترفين أو مبتدئين أو معلمين. يدعم Veo تحويلات النص إلى فيديو، والفيديو إلى فيديو، والصورة إلى فيديو.
بالتعاون مع الفنان المتعدد المواهب دونالد غلافر، المعروف أيضًا بـ Childish Gambino، اختبرت Google ميزات Veo الجديدة من خلال استوديوه الإبداعي Gilga. عرضت DeepMind قدرات Veo المذهلة من خلال مجموعة من الفيديوهات المولدة على حساباتها في YouTube وX، والتي تحتوي على مشاهد مثل مدينة نيون، وقناديل بحرية حية، ورعاة بقر يمتطون الخيول، وسفن فضائية تستكشف الكون، وتفاعلات بشرية. النتائج تشبه إلى حد كبير مقاطع الحركة الحية والرسوم المتحركة المتقنة، وكلها تم إنشاؤها من أوامر نصية بسيطة.
في منشور مدونة للمسؤولين في Google، إلي كولينز ودوغلاس إيك، يُبرز Veo بمستوى غير مسبوق من السيطرة الإبداعية، مع فهم قوي للمصطلحات السينمائية مثل "التصوير الزمني" و"اللقطات الجوية".
علاوة على ذلك، يسهل Veo تعديلات سريعة وعالية الجودة على الفيديوهات المولدة بالذكاء الاصطناعي وتلك التي يرفعها المستخدمون، بما في ذلك اللقطات المسجلة مسبقًا. على سبيل المثال، يمكن للمستخدمين إدخال أمر تحرير، مثل إضافة قوارب الكاياك إلى لقطة ساحلية جوية، ويقوم Veo بتنفيذ ذلك بسلاسة في الفيديو الأصلي.
يتميز Veo أيضًا بالحفاظ على الاتساق بين إطارات الفيديو، مما يعالج بعض عدم التناسق الذي غالبًا ما يوجد في نماذج أخرى، بما في ذلك Sora. يحقق ذلك من خلال المحولات المتقدمة لتشتت الحالات، مما يضمن أن الشخصيات والأشياء تظل متماسكة وواقعية.
لتحسين أدائه، عملت Google على تحسين تسميات بيانات التدريب واستخدمت تمثيلات فيديو مضغوطة عالية الجودة. هذه التحسينات تعزز جودة الفيديو بشكل عام وتقلل من زمن الإنتاج.
تحتوي جميع الفيديوهات التي ينتجها Veo على علامة شهادات SynthID، وهي علامة مائية تثبت حالتها كمحتوى مولد بواسطة الذكاء الاصطناعي.
يمثل Veo سنوات من أبحاث DeepMind، حيث يبني على ابتكارات سابقة مثل شبكة الاستفسار التوليدية (GQN)، وDVD-GAN، وImagen-Video، وPhenaki، وWALT، وVideoPoet، وLumiere. حاليًا، Veo غير متاح للجمهور. مثل نموذج OpenAI مع Sora، فإنه متاح لمجموعة مختارة من المبدعين من خلال عرض خاص في VideoFX. تخطط Google في النهاية لإدماج بعض ميزات Veo في YouTube Shorts وغيرها من المنتجات.