أصدرت Stability AI عرضاً أولياً لنموذجها الجديد من الذكاء الاصطناعي لتحويل النص إلى صورة، Stable Diffusion 3.0. يأتي هذا التحديث بعد عام من التحسينات المستمرة، ويعكس زيادة في التعقيد وجودة توليد الصور. في يوليو، تم ترقية النموذج الأساسي بشكل كبير مع الإصدار السابق SDXL، والآن تهدف الشركة إلى تحقيق المزيد من التقدم.
يركز Stable Diffusion 3.0 على تحسين جودة الصور والأداء، خاصة في توليد الصور من مطالب متعددة الموضوعات. من بين التحسينات الملحوظة هو تحسين الطباعة، الذي يعالج ضعفًا سابقًا بتوفير تهجئة دقيقة ومتسقة داخل الصور المولدة. تعتبر هذه التحسينات حاسمة في ظل تنافس الشركات الأخرى مثل DALL-E 3 وإيديجرام وميدجورني التي أولت أهمية لهذا الجانب في تحديثاتها الأخيرة. تقدم Stability AI Stable Diffusion 3.0 بأحجام نماذج مختلفة تتراوح من 800 مليون إلى 8 مليار معلمة.
يمثل هذا التحديث تحولًا كبيرًا؛ ليس مجرد تحسين للنماذج السابقة، بل تجديدًا كاملاً يعتمد على بنية جديدة. قال عماد مصطقي، الرئيس التنفيذي لشركة Stability AI: "Stable Diffusion 3 هو نموذج تحويل الانتشار، بنية جديدة مشابهة لتلك المستخدمة في نموذج Sora الأخير من OpenAI. إنه الخليفة الحقيقي لـ Stable Diffusion الأصلي."
تشير الانتقال إلى نماذج تحويل الانتشار ومطابقة التدفق إلى عصر جديد في توليد الصور. قامت Stability AI بتجربة تقنيات متنوعة، وسبق أن عرضت نموذج Stable Cascade، الذي يستخدم بنية Würstchen لتعزيز الأداء والدقة. في المقابل، يستخدم Stable Diffusion 3.0 نماذج تحويل الانتشار، وهو تحول ملحوظ عن سلفه.
وأوضح مصطقي: "لم يكن هناك نموذج تحويل في Stable Diffusion من قبل." وهذه البنية، الأساسية للعديد من التطورات في الذكاء الاصطناعي، كانت مخصصة بشكل كبير لنماذج النص، بينما هيمنت نماذج الانتشار على توليد الصور. تقدم نماذج تحويل الانتشار (DiTs) استخدامًا محسنًا للموارد الحاسوبية وتعزيزًا للأداء من خلال استبدال الهيكل التقليدي U-Net بالنماذج العاملة على قطع الصورة الكامنة.
أيضًا، يستفيد Stable Diffusion 3.0 من مطابقة التدفق، وهي طريقة تدريب جديدة لتدفقات التقييس المستمر (CNFs) التي تقوم بنمذجة البيانات المعقدة بشكل فعال. يشير الباحثون إلى أن استخدام مطابقة التدفق الشرطية (CFM) مع مسارات النقل المثلى يؤدي إلى تدريب أسرع، وعينة أكثر كفاءة، وأداء أفضل مقارنةً بأساليب الانتشار التقليدية.
يظهر النموذج تقدمًا واضحًا في الطباعة، مما يسمح بسرد أكثر تماسكًا وخيارات أسلوبية ضمن الصور المولدة. وذكر مصطقي: "هذا التحسين ناتج عن بنية التحويل وموالفات النص الإضافية. أصبحت الجمل الكاملة ممكنة الآن، وكذلك الأسلوب المتماسك."
بينما يتم عرض Stable Diffusion 3.0 في البداية كنموذج ذكاء اصطناعي لتحويل النص إلى صورة، فإنه يُعتبر أساسًا للابتكارات المستقبلية. تخطط Stability AI للتوسع في قدرات توليد الصور ثلاثية الأبعاد والفيديو في الأشهر القادمة. واختتم مصطقي قائلاً: "نقوم بإنشاء نماذج مفتوحة يمكن استخدامها وتكييفها لاحتياجات متنوعة. ستدعم هذه السلسلة من النماذج بمختلف الأحجام تطوير حلولنا المرئية من الجيل التالي، بما في ذلك الفيديو، والرسوم ثلاثية الأبعاد، والمزيد."