أحرزت شركة Meta تقدمًا ملحوظًا في مجال الذكاء الاصطناعي التوليدي مع إطلاق نموذجها المحسن لتوليد الصور، المعروف باسم Emu (الكون الإعلامي التعبيري). يتمتع هذا النموذج القوي الآن بقدرة جديدة على توليد مقاطع الفيديو من النصوص، بالإضافة إلى تحسينات في أدوات تحرير الصور بدقة.
تم عرض تقنية Emu لأول مرة خلال حدث Meta Connect في سبتمبر، حيث توفر أساسًا للعديد من تجارب الذكاء الاصطناعي التوليدي الديناميكية عبر منصات وسائل التواصل الاجتماعي التابعة لشركة Meta. على سبيل المثال، تعزز هذه التقنية أدوات تحرير الصور على إنستغرام، مما يتيح للمستخدمين تغيير نمط الصورة أو خلفيتها بسلاسة. كما تم دمج Emu في منصة Meta AI، المساعدة الجديدة للمستخدمين التي تعمل بطريقة مشابهة لنظام ChatGPT من OpenAI.
يمتاز نموذج Emu Video الجديد بقدرته المزدوجة على إنتاج مقاطع الفيديو بناءً على نصوص طبيعية، أو صور، أو مزيج من كليهما. على عكس النماذج السابقة مثل Make-a-Video، التي استندت إلى خمسة نماذج تفريقية، يعتمد Emu Video على نهج أكثر بساطة باستخدام نموذجين فقط. تتم العملية في خطوتين رئيسيتين: أولاً، يتم توليد صورة بناءً على النص، ثم يتم إنشاء فيديو يُرشَد بالنص والصورة. تتيح هذه المنهجية المبسطة تدريب نماذج توليد الفيديو بشكل أكثر كفاءة. في الدراسات التي أُجريت على المستخدمين، تفوق Emu Video على Make-a-Video، حيث أبدى 96% من المشاركين تفضيلهم للجودة، ووافق 85% على أنه كان يلتزم أكثر بالنصوص المقدمة. بالإضافة إلى ذلك، يمكن لـ Emu Video إحياء الصور المرفوعة من قبل المستخدمين، متحركة وفقًا لنصوص محددة.
تحديث آخر مثير هو إدخال Emu Edit، الذي يعزز قدرات تحرير الصور باستخدام تعليمات اللغة الطبيعية. يمكن للمستخدمين رفع صورة وتحديد التعديلات التي يرغبون في رؤيتها. على سبيل المثال، يمكنهم طلب إزالة عنصر مثل كلب البودل واستبداله بآخر، مثل مقعد أحمر—مجرد كتابة طلبهم. رغم وجود أدوات تعديل الصور المدعومة بالذكاء الاصطناعي مثل ClipDrop المدعوم من Stable Diffusion وميزات التحرير على Runway، أشار الباحثون في Meta إلى أن الطرق الحالية غالبًا ما تؤدي إلى تعديلات مفرطة أو نقص في الأداء.
في منشور مدونة، أكدت Meta أن الهدف ينبغي ألا يكون مجرد إنشاء صورة "مقنعة"، بل التركيز على تعديل البكسلات المتعلقة فقط بطلب المستخدم المحدد. اكتشف الفريق أن دمج مهام الرؤية الحاسوبية كتعليمات لنماذج توليد الصور يوفر تحكمًا لا مثيل له في عملية التحرير.
لتطوير Emu Edit، استخدمت Meta مجموعة بيانات شاملة تتضمن 10 ملايين صورة مصنّعة، كل منها تحتوي على صورة مدخلة، ووصف مفصل للمهمة، والصورة المستهدفة. هذا يسمح للنموذج بالالتزام بتعليمات المستخدم مع الحفاظ على سلامة العناصر غير ذات الصلة في الصورة الأصلية.
بالنسبة لأولئك المهتمين باستكشاف قدرات Emu Edit، يمكنهم عرض الصور المولدة على Hugging Face. بالإضافة إلى ذلك، قدمت Meta مجموعة اختبار Emu Edit Test Set، وهي معيار جديد مصمم لتسهيل اختبار نماذج تحرير الصور. تتضمن هذه المجموعة سبع مهام مختلفة لتحرير الصور، مثل تغييرات الخلفية وإزالة العناصر، مما يمهد الطريق لتقدمات في تقنيات تحرير الصور الدقيقة.