أفادت شركة Apple بأنها قد قدمت نموذجًا رائدًا مفتوح المصدر للذكاء الاصطناعي يسمى "MGIE" (تحرير الصور المعتمد على نموذج اللغة الكبير)، مصمم لتحرير الصور بناءً على تعليمات اللغة الطبيعية. يستفيد MGIE من نماذج اللغة الكبيرة متعددة الأنماط (MLLMs) لفهم أوامر المستخدمين وإجراء تعديلات دقيقة على مستوى البكسل. يتميز هذا النموذج بقدرته على تنفيذ مهام تحرير متنوعة، بما في ذلك التعديلات الشبيهة بـ Photoshop، التحسين العام، والتعديلات الموضعية.
هذا النموذج المبتكر هو نتاج تعاون بين Apple وباحثين من جامعة كاليفورنيا في سانتا باربرا، وتم عرضه في المؤتمر الدولي حول تمثيلات التعلم (ICLR) 2024، وهو حدث بارز في مجال أبحاث الذكاء الاصطناعي. يُظهر البحث فعالية MGIE في تحسين المقاييس التلقائية وتقييمات البشر، مع ضمان كفاءة استدلال تنافسية.
كيف يعمل MGIE؟
يعتمد MGIE على قوة MLLMs التي يمكنها فهم كل من النصوص والصور لتحسين عملية تحرير الصور مبنية على التعليمات. رغم الإمكانيات الكبيرة التي تمتلكها MLLMs في فهم الأنماط المختلفة، لم تُستغل بالشكل الكافي في مهام تحرير الصور.
يُدمج MGIE MLLMs في سير عمل التحرير بشكل رئيسي عبر طريقتين:
1. تحويل التعليمات التعبيرية: يقوم MGIE بتحويل مطالب المستخدمين إلى تعليمات موجزة للتحرير. على سبيل المثال، إذا تم إدخال "اجعل السماء أكثر زرقة"، قد تنتج التعليمات "زيادة تشبع منطقة السماء بنسبة 20%".
2. إنشاء تمثيل بصري: ينشئ النموذج تمثيلًا كامنًا للتعديل المطلوب، مما يوجه التعديلات على مستوى البكسل. يعتمد MGIE على نظام تدريب شامل يجمع بين اشتقاق التعليمات، والتمثيل البصري، ووظائف التحرير بشكل مثالي.
ما الذي يمكن لـ MGIE القيام به؟
يتميز MGIE بمرونته، حيث يمكنه التعامل مع مجموعة متنوعة من السيناريوهات التحريرية، بدءًا من التعديلات الأساسية في الألوان إلى التلاعبات المعقدة في الأجسام. تشمل ميزاته:
- تحرير قائم على التعليمات التعبيرية: ينتج تعليمات واضحة تعزز من جودة التحرير وتجربة المستخدم.
- تعديل بأسلوب Photoshop: ينفذ تعديلات شائعة مثل القص، التغيير في الحجم، الدوران، وتعديلات متقدمة مثل استبدال الخلفية ودمج الأجسام.
- تحسين الصورة بشكل شامل: يعزز جودة الصورة العامة، مع ضبط السطوع والتباين والحدة، وتطبيق تأثيرات فنية.
- التحرير المحلي: يستهدف مناطق محددة ضمن الصورة (مثل الوجوه أو الملابس)، مما يسمح للمستخدمين بتعديل خصائص مثل الحجم واللون والملمس.
كيف تستخدم MGIE؟
تُتاح MGIE كمشروع مفتوح المصدر على GitHub، مقدمةً للمستخدمين الشيفرات والبيانات والنماذج المدربة مسبقًا. تعرض دفتر ملاحظات تجريبي مهام تحرير متنوعة، ويمكن للمستخدمين تجربة MGIE من خلال عرض توضيحي عبر الإنترنت مستضاف على Hugging Face Spaces.
مصمم ليكون سهل الاستخدام، يسمح MGIE للمستخدمين بإدخال أوامر باللغة الطبيعية، وتوليد صور محررة وتعليمات تفصيلية. يمكن للمستخدمين تقديم ملاحظات لتحسين التعديلات أو طلب بدائل، مما يجعله قابلاً للتكيف مع التطبيقات الأخرى التي تحتاج إلى قدرات تحرير الصور.
لماذا يعد MGIE مهمًا؟
يمثل MGIE تقدمًا كبيرًا في تحرير الصور القائم على التعليمات، وهو مجال أساسي لتعزيز الإبداعين البشري والذكاء الاصطناعي. يُظهر هذا النموذج الإمكانيات المتاحة لاستخدام MLLMs في تحرير الصور، مما يسهل التفاعلات الجديدة بين الأنماط.
بعيدًا عن أهميته البحثية، يعمل MGIE كأداة عملية لمجموعة متنوعة من التطبيقات، helping users create and optimize images for personal and professional contexts, including social media, e-commerce, and creative arts. يتيح للمستخدمين التعبير عن أفكارهم بصريًا ويشجع على الاستكشاف الإبداعي.
بالنسبة لـ Apple، يعزز MGIE القيادة المتنامية للشركة في أبحاث وتطوير الذكاء الاصطناعي، مُظهرًا قدراتها المتزايدة في التعلم الآلي مع تركيزها على تحسين المهام الإبداعية اليومية. ورغم أن MGIE يعد إنجازًا بارزًا، يقر الخبراء بالحاجة المستمرة للتطورات في أنظمة الذكاء الاصطناعي متعددة الأنماط. ومع ذلك، تشير التقدم السريع في هذا المجال إلى أن الذكاء الاصطناعي المساعد مثل MGIE قد يصبح قريبًا أداة أساسية للإبداع.