توليد الصور من نصوص بسيطة باستخدام الذكاء الاصطناعي أصبح أسرع من أي وقت مضى، بفضل الابتكارات من Stability AI، الشركة المسؤولة عن نموذج Stable Diffusion الشهير.
مع الإعلان عن وضع SDXL Turbo هذا الأسبوع، يمكن للمستخدمين الاستمتاع بتوليد الصور في الوقت الحقيقي، مما يلغي الانتظار لعمليات معالجة الذكاء الاصطناعي. ما كان يستغرق سابقًا 50 خطوة الآن يتطلب خطوة واحدة فقط، مما يقلل بشكل كبير من وقت الحساب. تستطيع تقنية SDXL Turbo إنتاج صورة بمقاس 512×512 في 207 مللي ثانية فقط على وحدة معالجة الرسوميات A100، مما يمثل تحسينًا كبيرًا مقارنةً بالنماذج السابقة.
تجربة SDXL Turbo تشبه ميزات الكتابة التنبؤية الموجودة في محركات البحث الحديثة، ولكنها تطبق هذه السرعة على توليد الصور في الوقت الحقيقي.
ومن المثير للاهتمام أن هذه السرعة لا تأتي من أجهزة متقدمة، بل تعتمد على تقنية جديدة تُسمى عملية تقطير التشتت العدائي (ADD). أوضح عماد مصداق، مؤسس الشركة ومديرها التنفيذي، على منصة X (المعروفة سابقًا بتويتر)، "تقدم تقنية Stable Diffusion XL خطوة واحدة باستخدام نهج ADD تقليلًا في تنوع النتائج لكن مع تحقيق سرعة أكبر، ومن المرجح أن نشهد المزيد من التباين في المستقبل".
SDXL - أسرع الآن
تم تقديم نموذج SDXL الأساسي في يوليو، وكان مصداق يتوقع أن يكون أساسًا قويًا للنماذج المستقبلية. تتنافس Stable Diffusion مع نماذج أخرى مثل DALL-E من OpenAI وMidjourney.
تتميز قاعدة نموذج SDXL بميزة ControlNets، التي تعزز التحكم في تكوين الصور. مع 3.5 مليار معلمة، يوفر النموذج دقة محسنة من خلال فهم مجموعة أوسع من المفاهيم. تعتمد تقنية SDXL Turbo على هذه الابتكارات، مما يعزز سرعة التوليد.
تتبع Stability AI اتجاهًا متزايدًا في تطوير الذكاء الاصطناعي التوليدي: إنتاج نموذج دقيق أولاً، ثم تحسينه للأداء، مشابهة لنهج OpenAI مع GPT-3.5 Turbo وGPT-4 Turbo.
مع تسريع نماذج الذكاء الاصطناعي التوليدية، تظل هناك مخاوف مشتركة بشأن التوازن بين الجودة والسرعة. ومع ذلك، تُظهر SDXL Turbo تنازلاً ضئيلًا، حيث تقدم صورًا مفصلة للغاية تحافظ على جودة مشابهة لنظيرتها غير المعجلة.
ما هي عملية تقطير التشتت العدائي (ADD)؟
مفهوم الشبكات التنافسية التوليدية (GAN) معروف جيدًا في الذكاء الاصطناعي لبناء شبكات عصبية عميقة سريعة. في المقابل، تستخدم نماذج التشتت التقليدية عملية أكثر تدريجية، والتي تميل إلى أن تكون أبطأ. تجمع ADD مزايا كلا الطريقتين.
وفقًا لتقرير بحث ADD، "الهدف من هذا العمل هو دمج جودة العينات المتفوقة من نماذج التشتت مع السرعة الكامنة في GANs".
تهدف تقنية ADD التي طورها باحثو Stability AI إلى التفوق على طرق الذكاء الاصطناعي الأخرى في توليد الصور، مما يمثل أول تقنية تحقق توليد صورة في الوقت الحقيقي بخطوة واحدة باستخدام نماذج أساسية. من خلال دمج التدريب العدائي مع تقطير الدرجات، تستفيد ADD من المعرفة المستمدة من نموذج تشتت الصورة المدرب مسبقًا. الفوائد الرئيسية هي سرعة العينة مع الحفاظ على الدقة العالية وقدرات التحسين التكراري.
تظهر التجارب أن ADD تتفوق بشكل كبير على GANs ونماذج التناسق الكامن وطرق التقطير الأخرى في توليد الصور خلال 1-4 خطوات.
بينما لا تزال Stability AI تعتبر أن نموذج SDXL Turbo غير جاهز للاستخدام التجاري، فإنه متاح حاليًا للمعاينة على خدمة Clipdrop الخاصة بالشركة. تشير الاختبارات الأولية إلى生成 سريع للصور، على الرغم من أن النسخة التجريبية من Clipdrop قد تفتقر إلى بعض الخيارات المتقدمة لتمييز أنماط الصور. كما يمكن الوصول إلى الشيفرة وأوزان النموذج على Hugging Face بموجب ترخيص بحث غير تجاري.