جوجل تطلق أداة الفيديو الجديدة متعددة الوسائط: اكتشف VideoPoet!

تأملات الأمس دفعتني للتساؤل عما إذا كانت جوجل ستنجح في إطلاق منتج ذكاء اصطناعي في محاولتها الأولى. ومع الكشف عن فيديو بويت، يبدو أننا حصلنا على إجابة لهذا السؤال.

قدمت جوجل هذا الأسبوع فيديو بويت، وهو نموذج لغوي ضخم (LLM) مبتكر تم تطويره بواسطة فريق مكون من 31 باحثًا في جوجل للبحث، يستهدف مهام إنتاج الفيديو المتنوعة.

تجدر الإشارة إلى أن تطوير هذا النموذج اللغوي الضخم هو أمر بارز. وفقًا لورقة البحث الأولية للفريق، "تستخدم معظم النماذج الحالية طرقًا تعتمد على الانتشار، التي تُعتبر الأفضل في إنتاج الفيديو. عادةً ما تبدأ هذه النماذج بنموذج صور مُدرب مسبقًا، مثل Stable Diffusion، لإنشاء صور عالية الجودة للإطارات الفردية، ثم تتم صقلها لتعزيز الاتساق الزمني بين الإطارات."

على النقيض من ذلك، اختار فريق البحث في جوجل نموذجًا لغويًا ضخمًا مبنيًا على بنية المحولات الشائعة في إنتاج النصوص والرموز (مثل ChatGPT وClaude 2 وLlama 2). ومع ذلك، تم تدريب فيديو بويت بشكل خاص لإنتاج الفيديو.

أهمية التدريب المسبق

يرجع نجاح فيديو بويت إلى التدريب المسبق المكثف على 270 مليون فيديو وأكثر من مليار زوج من الصور والنصوص، تم جمعها من الإنترنت العام وما بعده. تم تحويل هذه البيانات إلى تمثيلات نصية، ورموز بصرية، ورموز صوتية يمكن للنموذج استخدامها.

النتائج مثيرة للإعجاب، خاصة عند مقارنتها بأدوات إنتاج الفيديو المتقدمة للمستهلكين مثل Runway وPika، التي تعد من استثمارات جوجل.

قصص أطول وأعلى جودة مع حركة محسّنة

تدعي جوجل للبحث أن نهجهم القائم على نموذج LLM يسمح بإنشاء مقاطع أطول وأكثر جودة، متجاوزًا القيود الحالية التي تواجه نماذج الذكاء الاصطناعي المستندة إلى الانتشار، التي غالبًا ما تكافح للحفاظ على حركة متسقة عبر تسلسلات طويلة.

كما أشار أعضاء الفريق دان كوندرايوك وديفيد روس في منشور على مدونة جوجل للبحث: "واحدة من العقبات الحالية في إنتاج الفيديو هي القدرة على إنتاج حركات كبيرة متسقة. العديد من النماذج الرائدة إما تولد حركات صغيرة أو تنتج عيوبًا ملحوظة عند محاولة تنفيذ حركات أكبر."

يمكن لفيديو بويت تقديم حركات أكبر وأكثر اتساقًا عبر مقاطع تصل إلى 16 إطارًا. كما يقدم مجموعة متنوعة من الوظائف منذ البداية، مثل محاكاة حركات الكاميرا المختلفة، والأنماط البصرية، وحتى إنتاج صوت جديد ي complement المحتوى المرئي. والأهم من ذلك، أنه يعالج أنواع دخول متعددة - النصوص، والصور، ومقاطع الفيديو - كمدخلات.

من خلال دمج هذه الميزات في نموذج لغوي ضخم واحد، يقضي فيديو بويت على الحاجة إلى عدة أدوات متخصصة، مما يوفر حلاً متكاملاً وشاملاً لإنتاج الفيديو.

في الواقع، أظهرت دراسة أجراها فريق جوجل للبحث أن المشاهدين فضلوا مقاطع فيديو بويت. عندما قيم الأشخاص المقاطع جنبًا إلى جنب مع نماذج الانتشار مثل Source-1 وVideoCrafter وPhenaki، كانت مقاطع فيديو بويت دائمًا مفضلة.

وفقًا لمدونة جوجل للبحث، "في المتوسط، اختار المقيمون 24-35% من أمثلة فيديو بويت على أنها أكثر توافقًا مع المدخلات مقارنة بالنماذج المنافسة، مقارنة بـ 8-11% فقط للنماذج الأخرى. بالإضافة إلى ذلك، تم تقييم 41-54% من أمثلة فيديو بويت على أنها تحتوي على حركة أكثر إثارة للاهتمام من 11-21% من النماذج الأخرى."

مصمم للفيديو العمودي

خصص فريق جوجل للبحث فيديو بويت لإنتاج مقاطع فيديو عمودية بشكل افتراضي، مما يجعله جذابًا لجمهور الفيديوهات المحمولة الذي أصبحت منصات مثل Snapchat وTikTok تروج له.

بالنظر إلى المستقبل، يهدف فريق جوجل للبحث إلى توسيع وظائف فيديو بويت لدعم مهام "أي إلى أي"، بما في ذلك تحويل النص إلى صوت والصوت إلى فيديو، مما يعزز إمكانيات توليد الفيديو والصوت.

حاليًا، لا يتوفر فيديو بويت للاستخدام العام، ونحن في انتظار معلومات من جوجل بشأن موعد إصداره. حتى ذلك الحين، تتصاعد التوقعات بينما نتطلع إلى معرفة كيف يتفوق على الأدوات الأخرى في السوق.

Most people like

Find AI tools in YBX