أطلقت Stability AI، المطور وراء نظام Stable Diffusion الشهير لتحويل النص إلى صورة، أول نموذج مبتكر لتوليد الفيديو يعرف باسم Stable Video Diffusion. يتميز هذا النموذج المتقدم من الذكاء الاصطناعي بقدرته على تحويل العبارات النصية إلى فيديوهات ديناميكية. يمكن للمستخدمين ببساطة إدخال عبارات مثل "صاروخ ينطلق في الصحراء" أو "أمواج تتكسر على الشاطئ"، ومشاهدة Stable Video Diffusion يجسد هذه الأوصاف.
بالإضافة إلى العبارات النصية، يمكن لهذا النموذج أيضًا إنشاء فيديوهات من صور ثابتة. تم تصميم فريق البحث وراء Stable Video Diffusion خصيصًا لعملية تركيب الفيديوهات عالية الدقة. إحدى الميزات الرئيسية تشمل التركيب متعدد الزوايا، مما يسمح للمؤثرين بإنشاء زوايا كاميرا متعددة لجسم واحد. يمكن أن تكون هذه الوظيفة ذات قيمة كبيرة للمطورين الذين يبنون بيئات ثلاثية الأبعاد غامرة لتطبيقات الواقع الافتراضي (VR) والواقع المعزز (AR).
كيفية الوصول إلى Stable Video Diffusion
حاليًا، يتوفر Stable Video Diffusion لأغراض البحث فقط. صرّح المطورون أن النموذج "ليس مخصصًا للتطبيقات الواقعية أو التجارية في هذه المرحلة." بدلاً من ذلك، يركزون على جمع التعليقات المتعلقة بالسلامة والأداء من أجل تحسين النموذج للاستخدام في المستقبل.
يمكن للباحثين المهتمين باستكشاف Stable Video Diffusion العثور على شفرة المصدر على GitHub، بينما يتم استضافة الأوزان الضرورية لتنفيذ النموذج محليًا على Hugging Face. يتميز النموذج بخيارين مختلفين لتحويل الصورة إلى فيديو قادرين على إنتاج 14 و 25 إطارًا، مع معدلات إطارات قابلة للتخصيص تتراوح بين ثلاثة إلى 30 إطارًا في الثانية.
تشير الدراسات الأولية التي تقارن تفضيلات المستخدمين إلى أن Stable Video Diffusion قد حصل على تقييمات إيجابية مقارنة بالنماذج المنافسة من Pika Labs وRunway، مما يبرز إمكانياته في مجال توليد الفيديو المتزايد.
ويمكن للمستخدمين المهتمين التسجيل في قائمة الانتظار للحصول على وصول إلى واجهة ويب قادمة تبرز التطبيقات العملية لـ Stable Video Diffusion في مجالات مثل التعليم والتسويق والترفيه. للتعبير عن الاهتمام بهذه التجربة المبتكرة، ينبغي للمستخدمين اختيار "Stable Video – قائمة الانتظار" من القائمة المنسدلة في نموذج الاتصال.
تواصل Stability AI دفع حدود التكنولوجيا التوليدية، مما يمهد الطريق لإمكانيات جديدة في توليد الفيديو وخلق المحتوى الإبداعي. مع تطور النموذج، يحمل إمكانيات واعدة لمجموعة واسعة من التطبيقات في المجالات التي تستخدم السرد البصري الغني.