تقديم Pyramid Flow: مولد فيديوهات الذكاء الصناعي عالي الجودة الجديد متاح الآن كمصدر مفتوح بالكامل!

Home أخبار الذكاء الاصطناعي تقديم Pyramid Flow: مولد فيديوهات الذكاء الصناعي عالي الجودة الجديد متاح الآن كمصدر مفتوح بالكامل!

Updated on أكتوبر 10 2024

استمر تطوير مجال إنتاج الفيديو عبر الذكاء الاصطناعي بالتوسع مع إطلاق نموذج Pyramid Flow هذا الأسبوع. يُنتج هذا النموذج مفتوح المصدر مقاطع فيديو عالية الجودة تصل مدتها إلى 10 ثوانٍ بسرعات مذهلة.

تم تطوير Pyramid Flow بواسطة فريق مشترك من جامعة بكين، وجامعة بكين للاتصالات والتكنولوجيا، وKuaishou Technology (المعروفة بمولد الفيديو Kling AI الشهير). يعتمد هذا النموذج على نهج مبتكر، حيث يتم إنشاء الفيديوهات على عدة مراحل، تُنتج في البداية بدقات منخفضة، مع الاحتفاظ بدقة كاملة للإخراج النهائي.

يمتلك Pyramid Flow القدرة على إنتاج فيديو مدته 5 ثوانٍ بدقة 384p في 56 ثانية فقط، مما يجعله يتنافس مع النماذج الرائدة الأخرى. ومع ذلك، لا يزال نموذج Runway Gen 3 Alpha Turbo يحتفظ بلقب السرعة، حيث ينتج غالبًا الفيديوهات في أقل من دقيقة، مع بعض الاختبارات التي تستغرق بين 10 إلى 20 ثانية.

على الرغم من أننا لم نقم بتجربة Pyramid Flow بأنفسنا، إلا أن مقاطع الفيديو التجريبية التي شاركها المطورون تُظهر صورًا واقعية للغاية ودقة مُقارنة بالأنظمة التجارية. يمكن الاطلاع على الأمثلة في صفحة مشروعه على GitHub.

تم تصميم Pyramid Flow للتنزيل السهل والاستخدام، بما في ذلك التطبيقات التجارية، مما يجعله بديلًا قويًا للمنافسين المدفوعين مثل Runway Gen-3 Alpha وLuma Dream Machine وKling وHaulio، التي قد تفرض رسوم اشتراك سنوية كبيرة.

في عالم مزودي الفيديو عبر الذكاء الاصطناعي التنافسي، يعد Pyramid Flow بالفعالية والمرونة للمطورين والفنانين ومنشئي المحتوى الذين يسعون إلى حلول متقدمة في إنتاج الفيديو.

تقنية جديدة: مطابقة تدفق هرمي

يتطلب إنتاج الفيديو بواسطة الذكاء الاصطناعي موارد حسابية كبيرة، مما يتطلب غالبًا نماذج متعددة لمراحل مختلفة، مما قد يعقد عملية التدريب. يقدم Pyramid Flow تقنية مطابقة تدفق هرمي، التي تقلل بشكل كبير من العبء الحسابي مع الحفاظ على الجودة البصرية. يتم إكمال إنتاج الفيديو من خلال "هرم" من المراحل، مستخدمًا الدقة الكاملة فقط في الخطوة النهائية.

تُفصل هذه المنهجية في ورقة بحثية قدمت إلى مجلة arXiv المفتوحة الوصول بعنوان "مطابقة تدفق هرمي لنمذجة الفيديو generative بكفاءة"، وقدمت في 8 أكتوبر 2024. تضم الفريق البحثي يانغ جين، تشي تشينغ سون، نينغ يوان لي، كون شيو، وآخرين، معظمهم ينتمون إلى جامعة بكين وKuaishou Technology.

توضح الورقة كيف أن تحسين إنتاج الفيديو عبر مراحل مختلفة يسهل سرعة تقارب التدريب، مما يسمح لـ Pyramid Flow بتوليد المزيد من النماذج مع معالجة أقل. بشكل خاص، يقلل عدد الرموز بمقدار أربعة أضعاف مقارنة بالنماذج التقليدية، مما يعزز الكفاءة في التدريب.

يمكن للنموذج إنتاج فيديوهات مدتها 5 إلى 10 ثوانٍ بدقة 768p ومعدل 24 إطارًا في الثانية، مدربًا على مجموعات بيانات مفتوحة المصدر، بما في ذلك LAION-5B وCC-12M وSA-1B وWebVid-10M وOpenVid-1M، مما يصل إلى حوالي 10 ملايين مقطع فيديو منفصل.

ومع ذلك، لا تزال هناك مخاوف بشأن مصادر هذه المجموعات، حيث تواجه بعض النماذج، مثل LAION-5B، اتهامات باستضافة مواد محمية بحقوق الطبع والنشر دون إذن. كما تواجه Runway قضايا قانونية، حيث تم رفع دعوى قضائية ضدها من قبل فنانين لنفس الممارسات المتعلقة بانتهاكات حقوق الطبع والنشر.

المصدر المفتوح والاستخدام التجاري

تم إصدار Pyramid Flow بموجب رخصة MIT، مما يسمح باستخدام واسع، بما في ذلك المشاريع التجارية والتعديلات وإعادة التوزيع، بشرط الحفاظ على إشعار حقوق الطبع والنشر. مما يجعله خيارًا جذابًا للمطورين والشركات التي تتطلع إلى دمج قدرات الفيديو عبر الذكاء الاصطناعي دون تكبد تكاليف النماذج التجارية.

ومع ذلك، على الرغم من أن Pyramid Flow يعد أداة واعدة، إلا أنه لا يزال يفتقر لبعض الميزات المتقدمة المتاحة في النماذج التجارية. على سبيل المثال، يوفر نموذج Runway Gen-3 Alpha تحكمًا مفصلاً بعناصر مثل زوايا الكاميرا وإيماءات الإنسان التي لم يتمكن Pyramid Flow من تكرارها بعد. علاوة على ذلك، فإن تقديمه النسبي يعني أن النظام البيئي الخاص به ليس متطورًا كما هو الحال مع بعض المنافسين.

مستقبل إنتاج الفيديو عبر الذكاء الاصطناعي

مع تطور سوق إنتاج الفيديو عبر الذكاء الاصطناعي، يمثل ظهور Pyramid Flow تحولًا نحو بدائل مفتوحة المصدر أكثر سهولة وقادرة على المنافسة مع الحلول التجارية الراسخة. يقدم جودة فيديو مثيرة للإعجاب دون قيود النماذج التقليدية، مما يجعله أداة مفضلة بين المبدعين والمطورين على حد سواء.

في المستقبل، سيراقب أصحاب المصلحة في الصناعة بعناية مسار Pyramid Flow وإمكانيات تحسينه، حيث يتنافس جميع اللاعبين على الهيمنة التكنولوجية واكتساب المستخدمين في هذا المجال الديناميكي. في الأثناء، يظل OpenAI Sora، الذي تم تقديمه في أوائل 2024، غير مختبر في معظم الحالات خارج مجموعة محدودة من المستخدمين الأوليين.

هل يمكن للذكاء الاصطناعي منافسة علماء بيانات البشر؟ المعايير الجديدة من OpenAI تختبر هذا الأمر.

أبرتشر داتا تقدم زيادة سرعة بمعدل 10 أضعاف للشركات التي تستفيد من البيانات متعددة الأنماط.

Most people like

TalkTo.ai

26.4K

انخرط في محادثات حيوية مع مجموعة متنوعة من رفقاء الذكاء الاصطناعي—تمامًا مجانًا! اكتشف الشخصيات الفريدة والرؤى التي يقدمها كل ذكاء اصطناعي، مما يجعل تجربتك في الدردشة ممتعة ومثيرة. أطلق العنان لإمكانات تفاعل الذكاء الاصطناعي اليوم!

منصة الدردشة بالذكاء الاصطناعي AI Chatbot

Castmagic

163.9K

كاستماجيك هي منصة ذكاء اصطناعي مبتكرة تهدف إلى تحويل التسجيلات الصوتية الطويلة إلى أصول قيمة للمحتوى. سواء كنت منشئ محتوى أو مدون صوتي أو Educator، فإن كاستماجيك تسهل عليك إعادة استخدام صوتك في تنسيقات جذابة تعزز إنتاجيتك ونطاق وصولك.

الذكاء الاصطناعي AI Content Generator

TypingMind

417.2K

تعزز TypingMind تجربة مستخدمي ChatGPT من خلال إضافة ميزات قيمة مثل البحث في سجل الدردشة ومكتبة شاملة من العبارات. هذه التحولات المبتكرة في واجهة المستخدم لا تسهل التفاعلات فحسب، بل تعزز أيضًا الإنتاجية للمستخدمين الذين يتطلعون إلى طرق فعالة للتفاعل مع الذكاء الاصطناعي.

روبوت المحادثة AI Developer Tools

Myimg

8.6K

حوّل صورك ومقاطع الفيديو الخاصة بك إلى كارتونات مذهلة على الفور أطلق العنان لإبداعك من خلال تحويل صورك ومقاطع الفيديو إلى نسخ كارتونية جذابة بكل سهولة. هذه الأداة تتيح لك كارتونيز الصور والفيديوهات في بضع نقرات فقط، مما يوفر طريقة ممتعة وفريدة للتعبير عن رؤيتك الفنية. سواء كنت ترغب في إنشاء محتوى يجذب الانتباه لوسائل التواصل الاجتماعي، أو تخصيص الهدايا، أو حتى استكشاف جانبك الإبداعي، اكتشف مدى سهولة تحويل مرئياتك إلى كارتونات على الفور اليوم!

الذكاء الاصطناعي AI Anime & Cartoon Generator

Find AI tools in YBX