استمر تطوير مجال إنتاج الفيديو عبر الذكاء الاصطناعي بالتوسع مع إطلاق نموذج Pyramid Flow هذا الأسبوع. يُنتج هذا النموذج مفتوح المصدر مقاطع فيديو عالية الجودة تصل مدتها إلى 10 ثوانٍ بسرعات مذهلة.
تم تطوير Pyramid Flow بواسطة فريق مشترك من جامعة بكين، وجامعة بكين للاتصالات والتكنولوجيا، وKuaishou Technology (المعروفة بمولد الفيديو Kling AI الشهير). يعتمد هذا النموذج على نهج مبتكر، حيث يتم إنشاء الفيديوهات على عدة مراحل، تُنتج في البداية بدقات منخفضة، مع الاحتفاظ بدقة كاملة للإخراج النهائي.
يمتلك Pyramid Flow القدرة على إنتاج فيديو مدته 5 ثوانٍ بدقة 384p في 56 ثانية فقط، مما يجعله يتنافس مع النماذج الرائدة الأخرى. ومع ذلك، لا يزال نموذج Runway Gen 3 Alpha Turbo يحتفظ بلقب السرعة، حيث ينتج غالبًا الفيديوهات في أقل من دقيقة، مع بعض الاختبارات التي تستغرق بين 10 إلى 20 ثانية.
على الرغم من أننا لم نقم بتجربة Pyramid Flow بأنفسنا، إلا أن مقاطع الفيديو التجريبية التي شاركها المطورون تُظهر صورًا واقعية للغاية ودقة مُقارنة بالأنظمة التجارية. يمكن الاطلاع على الأمثلة في صفحة مشروعه على GitHub.
تم تصميم Pyramid Flow للتنزيل السهل والاستخدام، بما في ذلك التطبيقات التجارية، مما يجعله بديلًا قويًا للمنافسين المدفوعين مثل Runway Gen-3 Alpha وLuma Dream Machine وKling وHaulio، التي قد تفرض رسوم اشتراك سنوية كبيرة.
في عالم مزودي الفيديو عبر الذكاء الاصطناعي التنافسي، يعد Pyramid Flow بالفعالية والمرونة للمطورين والفنانين ومنشئي المحتوى الذين يسعون إلى حلول متقدمة في إنتاج الفيديو.
تقنية جديدة: مطابقة تدفق هرمي
يتطلب إنتاج الفيديو بواسطة الذكاء الاصطناعي موارد حسابية كبيرة، مما يتطلب غالبًا نماذج متعددة لمراحل مختلفة، مما قد يعقد عملية التدريب. يقدم Pyramid Flow تقنية مطابقة تدفق هرمي، التي تقلل بشكل كبير من العبء الحسابي مع الحفاظ على الجودة البصرية. يتم إكمال إنتاج الفيديو من خلال "هرم" من المراحل، مستخدمًا الدقة الكاملة فقط في الخطوة النهائية.
تُفصل هذه المنهجية في ورقة بحثية قدمت إلى مجلة arXiv المفتوحة الوصول بعنوان "مطابقة تدفق هرمي لنمذجة الفيديو generative بكفاءة"، وقدمت في 8 أكتوبر 2024. تضم الفريق البحثي يانغ جين، تشي تشينغ سون، نينغ يوان لي، كون شيو، وآخرين، معظمهم ينتمون إلى جامعة بكين وKuaishou Technology.
توضح الورقة كيف أن تحسين إنتاج الفيديو عبر مراحل مختلفة يسهل سرعة تقارب التدريب، مما يسمح لـ Pyramid Flow بتوليد المزيد من النماذج مع معالجة أقل. بشكل خاص، يقلل عدد الرموز بمقدار أربعة أضعاف مقارنة بالنماذج التقليدية، مما يعزز الكفاءة في التدريب.
يمكن للنموذج إنتاج فيديوهات مدتها 5 إلى 10 ثوانٍ بدقة 768p ومعدل 24 إطارًا في الثانية، مدربًا على مجموعات بيانات مفتوحة المصدر، بما في ذلك LAION-5B وCC-12M وSA-1B وWebVid-10M وOpenVid-1M، مما يصل إلى حوالي 10 ملايين مقطع فيديو منفصل.
ومع ذلك، لا تزال هناك مخاوف بشأن مصادر هذه المجموعات، حيث تواجه بعض النماذج، مثل LAION-5B، اتهامات باستضافة مواد محمية بحقوق الطبع والنشر دون إذن. كما تواجه Runway قضايا قانونية، حيث تم رفع دعوى قضائية ضدها من قبل فنانين لنفس الممارسات المتعلقة بانتهاكات حقوق الطبع والنشر.
المصدر المفتوح والاستخدام التجاري
تم إصدار Pyramid Flow بموجب رخصة MIT، مما يسمح باستخدام واسع، بما في ذلك المشاريع التجارية والتعديلات وإعادة التوزيع، بشرط الحفاظ على إشعار حقوق الطبع والنشر. مما يجعله خيارًا جذابًا للمطورين والشركات التي تتطلع إلى دمج قدرات الفيديو عبر الذكاء الاصطناعي دون تكبد تكاليف النماذج التجارية.
ومع ذلك، على الرغم من أن Pyramid Flow يعد أداة واعدة، إلا أنه لا يزال يفتقر لبعض الميزات المتقدمة المتاحة في النماذج التجارية. على سبيل المثال، يوفر نموذج Runway Gen-3 Alpha تحكمًا مفصلاً بعناصر مثل زوايا الكاميرا وإيماءات الإنسان التي لم يتمكن Pyramid Flow من تكرارها بعد. علاوة على ذلك، فإن تقديمه النسبي يعني أن النظام البيئي الخاص به ليس متطورًا كما هو الحال مع بعض المنافسين.
مستقبل إنتاج الفيديو عبر الذكاء الاصطناعي
مع تطور سوق إنتاج الفيديو عبر الذكاء الاصطناعي، يمثل ظهور Pyramid Flow تحولًا نحو بدائل مفتوحة المصدر أكثر سهولة وقادرة على المنافسة مع الحلول التجارية الراسخة. يقدم جودة فيديو مثيرة للإعجاب دون قيود النماذج التقليدية، مما يجعله أداة مفضلة بين المبدعين والمطورين على حد سواء.
في المستقبل، سيراقب أصحاب المصلحة في الصناعة بعناية مسار Pyramid Flow وإمكانيات تحسينه، حيث يتنافس جميع اللاعبين على الهيمنة التكنولوجية واكتساب المستخدمين في هذا المجال الديناميكي. في الأثناء، يظل OpenAI Sora، الذي تم تقديمه في أوائل 2024، غير مختبر في معظم الحالات خارج مجموعة محدودة من المستخدمين الأوليين.