استقرار AI تكشف عن Stable Cascade: عصر جديد في توليد الصور
استقرار AI، مبتكرة تقنية Stable Diffusion المرموقة في تحويل النص إلى صورة، تستعرض الآن نموذجها الجديد: Stable Cascade. يهدف هذا النموذج الجديد لتوليد الصور إلى تقديم أساليب أكثر مرونة وكفاءة مقارنةً بالنماذج السابقة.
منذ إطلاق Stable Diffusion في عام 2022، واصلت استقرار AI تحسين هذه التقنية الأساسية. كان تقديم SDXL 1.0 في يوليو 2023 بمثابة نقطة تحول مهمة، تلاها تحديث SDXL Turbo في نوفمبر 2023.
هيكل مبتكر لـ Stable Cascade
يستخدم Stable Cascade هيكلًا مميزًا مقارنةً بـ SDXL، مما يعزز كفاءة توليد الصور. يعتمد هذا النموذج على هيكل Würstchen، الذي يدمج تقنيات متقدمة لتحسين الأداء والدقة. وفقًا لملخص أبحاث Würstchen، "تتعلم تقنيتنا في الانتشار الكامن تمثيلًا دقيقًا لكنه مضغوط، مما يوجه عملية الانتشار ويوفر توجيهًا أغنى مقارنةً بالتمثيلات الكامنة المعتمدة على اللغة، مع تقليل كبير في المتطلبات الحاسوبية."
هيكل ثلاثي المراحل
على عكس النموذج الكبير الوحيد لـ Stable Diffusion، يتميز Stable Cascade بهيكل ثلاثي المراحل، يتألف من المراحل A وB وC. يعزز هذا التصميم كفاءة التدريب ويتيح تخصيصًا أكبر.
- المرحلة C: تحول تعليمات النص إلى تمثيلات كامة بحجم 24×24 بكسل.
- المراحل A وB: تفكك هذه التمثيلات إلى صور عالية الدقة.
تسمح هذه الفجوة بين توليد النص والصورة وفك تشفير الصورة بتدريب أكثر كفاءة، حيث أفادت استقرار AI بتقليل التكاليف بمقدار 16 ضعفًا عند تحسين المرحلة C مقارنةً بنموذج Stable Diffusion واحد.
تحسين التفضيلات المباشرة لجودة محسنة
يمتلك Stable Cascade إمكانية تحسين التفضيلات المباشرة (DPO)، الذي يركز على تحسين النماذج لتتناسب بشكل أفضل مع تفضيلات البشر. صرح عماد مصطاق، مؤسس ومدير عام استقرار AI، مؤخرًا: “سيكون مخرجات Stable Cascade أفضل مع DPO، ويمكن تعزيزها أكثر بتقنيات مثل turbo وquantization. ينتج هذا النموذج في مرحلة العرض البحثي صورًا استثنائية ونصوصاً قوية من الصندوق، مع فرص للتحسين عبر تدفقات ComfyUI.”
قدرات رائعة في توليد النصوص
في التقييمات الداخلية، تفوق Stable Cascade على غيره من نماذج فنون AI الرائدة، بما في ذلك SDXL، متفوقًا في جودة الصورة ومحاذاة التعليمات. وعلى الرغم من احتوائه على 1.4 مليار معلمة إضافية مقارنةً بـ SDXL، يتمتع Stable Cascade بأوقات استدلال أسرع. يسهل الفضاء الكامن المضغوط النموذج من توليد صور معقدة من خلال نهجه متعدد المراحل.
من الجدير بالذكر أن Stable Cascade يظهر تحسينات في قدرات الطباعة عند توليد نصوص متماسكة داخل الصور، وهو مجال يعاني فيه SDXL. حققت تقنيات منافسة، مثل Ideogram وDALL-E 3 من OpenAI، تقدمًا مؤخرًا في توليد النصوص، رغم أن النتائج تفاوتت. تشير الاختبارات المحدودة إلى أن Stable Cascade ينتج نصوصًا دقيقة من التعليمات بشكل مستمر، رغم أن الكمال لا يزال بعيد المنال.
استكشاف المزيد مع Stable Cascade
لا يوفر Stable Cascade تحسينًا في توليد النصوص فحسب، بل يدعم أيضًا تنوع الصور، محتفظًا بالأسلوب والتكوين أثناء توليد نسخ جديدة من الصور. كما يؤدي النموذج ترجمات فعالة من صورة إلى أخرى من خلال تطبيق الضوضاء وإنتاج صور جديدة بناءً على الإدخال. مع تكامل ControlNet، يقدم وظائف متقدمة مثل التلوين الفعّال ورفع الدقة.
حاليًا، يتواجد Stable Cascade في مرحلة العرض البحثي وهو متاح للاستخدام غير التجاري، مع الوصول المقدم عبر رمز على GitHub.