توسع Stability AI مجموعة نماذج الذكاء الاصطناعي التوليدية لديها بإطلاق نموذج Stable Video 3D (SV3D). كما يوحي الاسم، يعد SV3D أداة توليد فيديو مصممة لإنشاء مقاطع فيديو ثلاثية الأبعاد. يعتمد هذا النموذج على تقنية Stable Video الأساسية التي تتيح للمستخدمين إنشاء مقاطع فيديو قصيرة من الصور أو نصوص التعليمات، ويعزز قدرات الفيديو من خلال توليد مشاهد جديدة ثلاثية الأبعاد، مما يقدم تحسينات كبيرة عن نموذج Stable Video Diffusion السابق.
من خلال SV3D، تضيف Stability AI عمقًا كبيرًا لتكنولوجيا توليد الفيديو لديها، مما يمكّن من إنشاء وتحويل شبكات ثلاثية الأبعاد متعددة المناظر من صورة إدخال واحدة. يتوفر هذا النموذج الآن للاستخدام التجاري مع عضوية Stability AI Professional، بسعر 20 دولارًا شهريًا للمبدعين والمطورين الذين يكسبون أقل من مليون دولار سنويًا. وللاستخدام غير التجاري، يمكن للمستخدمين تحميل أوزان النموذج من Hugging Face.
"من خلال تعديل نموذجنا Stable Video Diffusion من الصورة إلى الفيديو مع توجيه مسار الكاميرا، يقوم Stable Video 3D بتوليد مقاطع فيديو متعددة المشاهد لكائن ما"، كما أكدت الشركة في منشور مدونة عن النموذج الجديد. وعلق فارون جامباني، الباحث الرئيسي في Stability AI، قائلًا: "يعتبر Stable Video 3D ذا قيمة خاصة في إنشاء الأصول ثلاثية الأبعاد في قطاع الألعاب". كما أنه ينتج مقاطع فيديو دائرية بزاوية 360 درجة تعزز تجربة التسوق الم immersive في التجارة الإلكترونية.
استراتيجيات جديدة من Stable Zero123 إلى SV3D
تشتهر Stability AI بنماذج الذكاء الاصطناعي التوليدية من النص إلى الصورة، بما في ذلك SDXL وStable Diffusion 3.0، التي لا تزال في مرحلة البحوث المبكرة. يدعم النموذج المفتوح المصدر Stable Diffusion 1.5 العديد من منصات توليد الصور والفيديو بالذكاء الاصطناعي مثل Runway وLeonardo AI.
في ديسمبر 2023، أطلقت Stability AI نموذج Stable Zero123، الذي قدم إمكانيات جديدة لإنشاء الصور ثلاثية الأبعاد. وأشار عماد مصداق، مؤسس ورئيس الشركة، إلى أن هذا النموذج كان الأول في سلسلة تركز على تقنيات 3D. يعتمد SV3D نهجًا مختلفًا لتوليد 3D مقارنة بـ Stable Zero123.
"يعمل Stable Video 3D كخلف ومعزز لنموذجنا السابق، Stable Zero123"، أوضح جامباني. "يستخدم هذا النموذج الجديد شبكة توليد وجهات نظر جديدة تنتج صورًا متعددة من مدخل واحد". على عكس Stable Zero123، الذي يعتمد على Stable Diffusion لإنتاج صورة واحدة في كل مرة، يستفيد SV3D من نماذج Stable Video Diffusion لإنتاج مشاهد جديدة متعددة في آن واحد، مما يؤدي إلى جودة تفوق وأكثر فعالية في توليد الشبكات ثلاثية الأبعاد من صورة واحدة.
توفير مشاهد متسقة من أي زاوية
تناقش ورقة بحثية من Stability AI تقنيات توليد صور ثلاثية الأبعاد من صورة واحدة عبر تشتيت الفيديو الكامن. "تتكيف التطورات الحديثة في توليد ثلاثي الأبعاد مع نماذج التوليد ثنائية الأبعاد من أجل توليد وجهات نظر جديدة وتحسين 3D"، كما ينص التقرير. ومع ذلك، تواجه العديد من الأساليب الحالية تحديات تتعلق بالمناظير المحدودة والمخرجات غير المتناسقة.
تكمن القوة الرئيسية لـ SV3D في قدرته على توفير صور متعددة المشاهد لكائن ما، مما يقدم زوايا متماسكة من مختلف الاتجاهات. تؤكد الورقة البحثية على هذا التقدم، مشيرة إلى أن "Stable Video 3D يقدم مشاهد متسقة من أي زاوية بفضل التعميم الفعال".
بالإضافة إلى تحسين توليد المشاهد، يهدف SV3D إلى تحسين الشبكات ثلاثية الأبعاد. يتيح التناسق متعدد المشاهد توليد شبكات ثلاثية الأبعاد عالية الجودة مباشرة من المخرجات الناتجة. "يستخدم Stable Video 3D تناسقه متعدد المشاهد لتحسين مجالات الإشعاع ثلاثية الأبعاد neural radiance fields (NeRF) وتمثيلات الشبكات، مما يحسن بشكل كبير جودة الشبكات ثلاثية الأبعاد الناتجة"، أعلنت Stability AI في بيانها.
نوعان: SV3Du وSV3Dp
يتوفر SV3D في نوعين، كل منهما يهدف إلى حالات استخدام مختلفة. يقوم SV3Du بإنشاء مقاطع فيديو دائرية من مدخلات الصور الفردية دون الحاجة إلى توجيه الكاميرا. أما SV3Dp، فيدعم كل من الصور الفردية والمناظر الدائرية، مما يمكّن المستخدمين من إنشاء مقاطع فيديو ثلاثية الأبعاد على طول مسارات كاميرا محددة.