أحدث نموذج فيديو الذكاء الاصطناعي من مايكروسوفت يعزز تقنية توليد الفيديو المعتمدة على المسارات

تتنافس شركات الذكاء الاصطناعي بقوة لتطوير تكنولوجيا إنتاج الفيديو. في الأشهر الأخيرة، أصدرت شركات رائدة مثل Stability AI وPika Labs نماذج تتمكن من إنشاء مقاطع فيديو من النصوص والصور. وبناءً على هذه التطورات، قدمت Microsoft نموذجًا جديدًا يسمى DragNUWA، يهدف إلى منح مستخدميه تحكمًا أكبر في إنتاج الفيديو.

يعزز DragNUWA الطرق التقليدية لإدخال النصوص والصور من خلال دمج توليد يعتمد على مسارات، مما يسمح للمستخدمين بتحريك الأجسام أو إطارات الفيديو بأكملها على مسارات محددة. تُسهّل هذه الابتكار التحكم الدقيق في الجوانب الدلالية والمكانية والزمنية لإنشاء الفيديو مع ضمان جودة عالية.

فتحت Microsoft الكود المصدري لنموذج DragNUWA ودعت المجتمع لتجربته. ومع ذلك، من المهم أن نُدرك أن هذا لا يزال مشروعًا بحثيًا وليس مُصقلًا بالكامل.

ما الذي يميز DragNUWA من Microsoft؟

عادةً ما تعتمد تكنولوجيا توليد الفيديو المدعومة بالذكاء الاصطناعي على مدخلات النصوص أو الصور أو المسارات، ولكن هذه الطرق غالبًا ما تواجه صعوبة في تقديم تحكم دقيق. على سبيل المثال، الاعتماد فقط على النصوص والصور يمكن أن يغفل تفاصيل الحركة الدقيقة الهامة للفيديو، وقد تؤدي اللغة وحدها إلى غموض بشأن المفاهيم المجردة.

في أغسطس 2023، قدم فريق الذكاء الاصطناعي في Microsoft DragNUWA، وهو نموذج لتوليد الفيديو يعتمد على الانتشار ويشمل الصور والنصوص ومدخلات المسارات لتمكين التحكم الدقيق في الفيديو. يمكن للمستخدمين تحديد نصوص وصور ومسارات معينة لإدارة عناصر متعددة، مثل حركة الكاميرا وحركة الأجسام في الفيديو الناتج.

على سبيل المثال، يمكن للمستخدمين تحميل صورة لقارب على الماء، ودمجها مع النص "قارب يبحر في البحيرة"، وتقديم توجيهات لحركة القارب. هذه المدخلات تُنتج فيديو للقارب يتحرك كما هو محدد، مع توضيح المسار تفاصيل الحركة، وتوضح اللغة الأجسام المستقبلية، وتساعد الصور في تمييز بين الموضوعات.

DragNUWA في العمل

تم إصدار النسخة الأولى 1.5 من DragNUWA مؤخرًا على Hugging Face، مستفيدة من نموذج Stable Video Diffusion الخاص بـ Stability AI لتحريك الصور استنادًا إلى المسارات المحددة. مع تطور هذه التكنولوجيا، تعد بتبسيط عملية إنتاج الفيديو وتحريره. تخيل تحويل الخلفيات، وتحريك الصور، وتوجيه الحركة بسطر بسيط.

يتحمس عشاق الذكاء الاصطناعي لهذا التقدم، ويرونه خطوة مهمة نحو الإبداع في الذكاء الاصطناعي. ومع ذلك، يبقى الأداء الفعلي للنموذج في العالم الحقيقي قيد الاختبار. تشير الاختبارات المبكرة إلى قدرة DragNUWA على تنفيذ حركات الكاميرا وحركات الأجسام بدقة على مسارات سحب متنوعة.

"يدعم DragNUWA المسارات المعقدة المنحنية، مما يمكّن الأجسام من التحرك على مسارات معقدة. كما يُسمح بطول مسار متغير، مما يتيح إمكانية حركات أوسع. بالإضافة إلى ذلك، يمكن لـ DragNUWA التحكم في مسارات عدة أجسام في وقت واحد. حسب علمنا، لم يُحقق أي نموذج آخر لتوليد الفيديو مثل هذا التحكم في المسارات، مما يبرز قدرة DragNUWA على تطوير تكنولوجيا توليد الفيديو"، كما صرّح باحثو Microsoft في ورقتهم البحثية.

تساهم هذه الأعمال في مجال البحث المتنامي في تكنولوجيا الفيديو المدعومة بالذكاء الاصطناعي. مؤخرًا، حصلت Pika Labs على الاهتمام بفضل واجهتها لتحويل النص إلى فيديو، شبيهة بـ ChatGPT، التي تُنتج مقاطع فيديو قصيرة عالية الجودة مع خيارات تخصيص متنوعة.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles