مؤخراً، قدم فريق Alibaba إطار عمل مبتكراً لتوليد الفيديو باستخدام الذكاء الاصطناعي يسمى Tora. يدمج هذا الإطار المتقدم معلومات النصوص والصور والحركة، مستفيداً من تقنية التحويل المدعوم بالمسار الرائدة (DiT). ونتيجة لذلك، يعزز Tora بشكل كبير من توليد وتحكم محتوى الفيديو، مما يوفر حرية إبداع غير مسبوقة في مجالات مثل المؤثرات البصرية والواقع الافتراضي.
يتكون إطار عمل Tora من ثلاثة مكونات أساسية: مستخرج المسار (TE)، وحدة DiT الزمكانية-الزمانية، ووحدة دمج الحركة المدعومة (MGF). يستخدم TE شبكة ضغط فيديو ثلاثية الأبعاد متقدمة لتشفير بيانات المسار المدخلة إلى قطع حركة زمنية مكانية، مما يوفر قاعدة متينة لتوليد الفيديو فيما بعد. في الوقت نفسه، تدمج MGF هذه القطع الحركية مع وحدة DiT، مما يضمن توافق الفيديو الناتج مع المسارات المسبقة التحديد، منتجةً تأثيرات حركة سلسة وطبيعية.
تدعم تقنية Tora توليد فيديو يصل إلى 204 إطارات بدقة 720 بكسل. يتمتع المستخدمون بقدر كبير من التحكم في مدة الفيديو، والنسبة البُعدية، والدقة، بما يتناسب مع احتياجاتهم الإبداعية المتنوعة. تشير النتائج التجريبية إلى أن Tora لا تحافظ فقط على دقة الحركة العالية، بل تحاكي بدقة قوانين الحركة الفيزيائية، مما يوفر تجربة بصرية أكثر واقعية وغامرة.
يقارن فريق Alibaba Tora بـ "فرشاة سحرية" لتوليد الفيديو، حيث تتيح للمستخدمين تعديل مسارات حركة الكائنات بسهولة وإنشاء فيديوهات معقدة بلا جهد. تساعد هذه الفلسفة التصميمية في تخفيض الحواجز أمام إنتاج الفيديو، مما يمكّن المهنيين مثل فنانين المؤثرات البصرية، والمعلنين، ومطوري الواقع الافتراضي من استخدام أداة إبداعية قوية تعزز الابتكار في مجالاتهم الخاصة.
مع الإطلاق الرسمي لـ Tora، أظهر فريق Alibaba مرة أخرى قدرته الابتكارية في مجال الذكاء الاصطناعي. مع استمرار تطور التكنولوجيا، يهيئ Tora لإحداث المزيد من المفاجآت والتحولات في إنشاء وتوزيع الفيديو عالمياً.