تعمل Stability AI على تعزيز رؤيتها لتقنية الذكاء الاصطناعي التوليدي مع إطلاق نموذج Stable Audio 2.0. بينما تُعرف الشركة على نطاق واسع بنماذج تحويل النص إلى صورة مثل Stable Diffusion، فإنها توسيع محفظتها. ظهر Stable Audio لأول مرة في سبتمبر 2023، مما يسمح للمستخدمين بإنشاء مقاطع صوتية قصيرة بناءً على أوامر نصية. مع Stable Audio 2.0، يمكن للمستخدمين الآن توليد مقاطع صوتية عالية الجودة تصل مدتها إلى ثلاث دقائق، مما يعني ضعف مدة النسخة الأصلية التي كانت 90 ثانية فقط.
بالإضافة إلى توليد الصوت من النصوص، يقدم Stable Audio 2.0 إمكانيات تحويل الصوت إلى صوت، مما يمكّن المستخدمين من تحميل عينات واستخدامها كأوامر. النموذج متاح حاليا للاستخدام المجاني المحدود على موقع Stable Audio، مع توفر الوصول إلى واجهة برمجة التطبيقات (API) قريبًا للمطورين الباحثين عن بناء خدمات مبتكرة.
يمثل إصدار Stable Audio 2.0 أول تحديث كبير لـ Stability AI منذ الاستقالة المفاجئة للرئيس التنفيذي والمؤسس السابق عماد مصطقي في مارس. وتؤكد الشركة للمستخدمين أن التحديث يدل على استمرار العمليات التجارية.
تحسينات من Stable Audio 1.0 إلى 2.0
استفاد تطوير Stable Audio 2.0 من الدروس القيمة المستخلصة من النسخة السابقة، Stable Audio 1.0. أشار زاك إيفانز، رئيس أبحاث الصوت في Stability AI، إلى أن التركيز خلال الإطلاق الأول كان على إطلاق نموذج مبتكر يتمتع بدقة صوتية عالية ومدة إخراج مفيدة. وقال إيفانز: “منذ ذلك الحين، ركزنا على تعزيز الموسيقية، وتمديد مدة الإخراج، وتحسين الاستجابة للأوامر التفصيلية. تهدف هذه التحسينات إلى جعل التكنولوجيا أكثر تطبيقًا في السيناريوهات الواقعية”.
يمكن الآن لـ Stable Audio 2.0 إنتاج مقاطع موسيقية كاملة تتميز بهياكل متماسكة. باستخدام تقنية الانتشار الكامن، يستطيع النموذج توليد مؤلفات تستمر لمدة تصل إلى ثلاث دقائق، مع أقسام مدخل وتطوير وخاتمة متميزة، وهي ترقية كبيرة من قدرته السابقة على إنشاء حلقات أو مقاطع قصيرة فقط.
التقنية وراء Stable Audio 2.0
يواصل Stable Audio 2.0 الاستفادة من نموذج الانتشار الكامن (LDM). بعد إصدار النسخة التجريبية (بيتا) من Stable Audio 1.1 في ديسمبر 2023، تم دمج هيكل دعم التحويل، مما أدى إلى إنشاء بنية "محول الانتشار". وأضاف إيفانز: "قمنا بتحسين ضغط البيانات المطبق على الصوت أثناء التدريب، مما مكننا من توسيع المخرجات إلى ثلاث دقائق وأكثر مع الحفاظ على أوقات استدلال فعالة".
تحسينات في القدرات الإبداعية
مع Stable Audio 2.0، يمكن للمستخدمين توليد صوت ليس فقط من الأوامر النصية، ولكن أيضًا من عينات صوتية تم تحميلها. يمكن استخدام التعليمات الطبيعية لتحويل الأصوات بشكل إبداعي، مما يمكّن من عمليات التكرار والتعديل. كما يوسع النموذج طيف المؤثرات الصوتية والملمس. يمكن للمستخدمين الآن الطلب منه إنشاء بيئات غامرة، وأصوات محيطية، وجماهير، ومناظر حضرية، والمزيد. بالإضافة إلى ذلك، يسمح بتعديلات على الأسلوب والنغمة للصوت المولد والصوت المحمل.
معالجة القضايا المتعلقة بحقوق الطبع والنشر في الصوت التوليدي
تظل اعتبارات حقوق الطبع والنشر قضية مهمة في مجال الذكاء الاصطناعي التوليدي. تلتزم Stability AI بحماية حقوق الملكية الفكرية مع نموذج الصوت الجديد. لتخفيف مخاوف حقوق الطبع والنشر، تم تدريب Stable Audio 2.0 حصريًا على بيانات مرخصة من AudioSparx، ويحترم طلبات الانسحاب. تراقب تقنية التعرف على المحتوى عمليات تحميل الصوت لمنع معالجة المحتوى المحمي بحقوق الطبع والنشر.
يعد حماية حقوق الطبع والنشر أمرًا أساسيًا لشركة Stability AI لتسويق Stable Audio بشكل ناجح وضمان استخدام آمن للمنظمات. حاليًا، يولّد Stable Audio إيرادات من خلال الاشتراكات في تطبيقه على الويب، مع إطلاق واجهة برمجة التطبيقات قريبًا.
ومع ذلك، فإن Stable Audio ليس نموذجًا مفتوحًا في الوقت الحالي. وأكد إيفانز: "لن تتوفر أوزان Stable Audio 2.0 للتنزيل، لكننا نعمل على تطوير نماذج صوتية مفتوحة للإصدار في وقت لاحق من هذا العام."