Stability AI تكشف عن عرض بحثي لنماذج نشر الفيديو الثابت لتطبيقات الإبداع.

بينما تعيد OpenAI سام ألتمان إلى منصبه، تزداد جهود المنافسين في مجال الذكاء الصناعي (AI). عقب إصدار Claude 2.1 من Anthropic واستحواذ Adobe على Rephrase.ai، أعلنت Stability AI عن Stable Video Diffusion، مما يمثل دخولها إلى مجال توليد الفيديو المتزايد الشهرة.

تقديم Stable Video Diffusion

يتكون Stable Video Diffusion (SVD)، المتاح لأغراض البحث فقط، من نموذجين متقدمين للذكاء الصناعي - SVD و SVD-XT - اللذان يمكنهما توليد مقاطع فيديو قصيرة من الصور الثابتة. وتزعم Stability AI أن هذه النماذج تنتج مخرجات عالية الجودة يمكن أن تنافس أو تتفوق على مولدات الفيديو الحالية.

كلا النموذجين مفتوحا المصدر كجزء من عرض البحث، مع خطط لاستيعاب تعليقات المستخدمين لتحسين الوظائف لتطبيقات تجارية مستقبلية.

فهم Stable Video Diffusion

وفقًا للمدونة الخاصة بـ Stability AI، فإن SVD و SVD-XT هما نماذج انتشار كامنة تقبل صورة ثابتة واحدة لتوليد مقاطع فيديو بحجم 576 × 1024. يمكنهما إنتاج محتوى بسرعات تتراوح بين ثلاث إلى ثلاثين إطارًا في الثانية، على الرغم من أن المقاطع محدودة بأربع ثوانٍ. يقوم نموذج SVD بإنشاء 14 إطارًا من الصورة الثابتة، بينما يمكن لـ SVD-XT إنشاء ما يصل إلى 25 إطارًا.

لتطوير Stable Video Diffusion، قامت Stability AI بتدريب نموذجها الأساسي على حوالي 600 مليون عينة من مجموعة بيانات الفيديو المختارة، تلاها تحسين على مجموعة بيانات أصغر عالية الجودة تحتوي على ما يصل إلى مليون مقطع. يمكّن هذا التدريب النماذج من أداء مهام مثل توليد الفيديو من النص والتوليد من الصورة إلى الفيديو.

بينما تم الحصول على بيانات التدريب من مجموعات بيانات بحثية متاحة للجمهور، تظل الأصول الدقيقة غير محددة.

من المهم أن يشير الورقة البيضاء حول SVD إلى أن هذا النموذج يمكن تحسينه أكثر لدعم تركيب المشاهد المتعددة، مما يسمح بتمثيل متسق لجسم ما من صورة واحدة. تشمل التطبيقات المحتملة لـ Stable Video Diffusion العديد من القطاعات، بما في ذلك الإعلان والتعليم والترفيه.

جودة الإخراج والقيود

في التقييمات الخارجية، أظهرت مخرجات SVD جودة عالية، متفوقة على النماذج المغلقة الرائدة في تحويل النص إلى فيديو من Runway وPika Labs. ومع ذلك، تعترف Stability AI بأن هذه النماذج لا تزال في مراحلها الأولى؛ فهي غالبًا ما تعاني من صعوبة في الواقعية الضوئية، وقد تنتج مقاطع تفتقر إلى الحركة، وغالباً لا تولد الوجوه أو الأشخاص بدقة متوقعة.

للمضي قدمًا، تهدف الشركة إلى تحسين كلا النموذجين، ومعالجة القيود الحالية، وإدخال ميزات جديدة مثل دعم النصوص والدعم التجاري. وتؤكد أن هذا الإصدار يمثل دعوة للتحقيق المفتوح لتحديد وحل المشكلات، بما في ذلك التحيزات المحتملة، لضمان النشر الآمن.

تتخيل Stability AI مجموعة متنوعة من النماذج التي ستبنى على هذا الأساس، مماثلة للنظام البيئي المحيط بالانتشار المستقر. كما تدعو المستخدمين للتسجيل في تجربة ويب قادمة ستمكن من توليد فيديو من النص، على الرغم من أن الجدول الزمني الدقيق لتوفرها لا يزال غير واضح.

كيفية استخدام النماذج

لاستكشاف نماذج Stable Video Diffusion، يمكن للمستخدمين الوصول إلى الكود في مستودع GitHub الخاص بـ Stability AI والأوزان اللازمة لتشغيل النموذج محليًا على صفحتها في Hugging Face. الاستخدام مسموح به فقط بعد قبول الشروط التي تحدد التطبيقات المسموح بها والممنوعة.

حاليًا، تشمل حالات الاستخدام المسموح بها توليد أعمال فنية لأغراض التصميم والأدوات التعليمية أو الإبداعية. ومع ذلك، فإن توليد تمثيلات واقعية للأشخاص أو الأحداث يقع خارج نطاق هذا المشروع، وفقًا لما ذكرته Stability AI.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles