مؤخراً، كشفت OpenAI عن نموذجها المبتكر لتوليد الفيديوهات، سُورا، الذي حقق تقدمًا ملحوظًا في تقنية تحويل النص إلى فيديو. ومع ذلك، أظهرت اختبارات أجرتها Bloomberg بعض القيود الملحوظة لـسُورا. فعلى سبيل المثال، خلال مشهد يطير فيه ببغاء بجوار قرد، بدت أجنحة الببغاء مشوهة، وظهر القرد بشكل غريب يحمل ذيل الببغاء.
تشدد هذه الحالات على التحديات التي تواجه سُورا في فهم الخصائص الفيزيائية للأشياء. وقد اعترف بيل بيبلز، أحد علماء OpenAI، بهذه المشكلات، قائلاً: "هناك بالفعل بعض الحركات الغريبة داخل المقاطع."
يستخدم سُورا تقنية المحولات الانحدارية لتقسيم محتوى الفيديو إلى سلسلة من الم segments الصغيرة، معتمدًا على تقنيات إزالة الضوضاء لتوقع الصور الأصلية الواضحة. على الرغم من أن هذا الأسلوب يحسن جودة توليد الفيديو، لا يزال سُورا يواجه العديد من التحديات، بما في ذلك دقة التفاعلات الفيزيائية، والاتساق في تغييرات حالات الأجسام، والترابط في المقتطفات الطويلة، والظهور العفوي للأجسام، والمعاملة الصحيحة للأيادي وأجزاء الجسم، ومتطلبات الموارد الحسابية، وقدرات تعميم النموذج، والقدرة على تعديل الفيديوهات وإطالتها. في المشاهد المعقدة، قد ينتج سُورا سلوكيات غير واقعية، مثل كرة السلة التي تمر من جانب السلة أو الكلاب التي تتداخل مع بعضها أثناء المشي.
على الرغم من أداء سُورا المثير للإعجاب في بعض السيناريوهات، تعترف OpenAI بضرورة تجاوز النموذج لمجموعة من التحديات التقنية. مع تقدم التكنولوجيا، لدينا أسباب تدعونا لتوقع مستقبل أكثر إشراقًا لـسُورا.