تقدم شركة Stability AI تقنية الذكاء الاصطناعي التوليدي للصوت من خلال إطلاق Stable Audio Open 1.0. تُعرف Stability AI بتقنية Stable Diffusion لتحويل النص إلى صورة، وتقدم مجموعة متنوعة من النماذج تشمل البرمجة والنصوص والآن الصوت. في سبتمبر 2023، كشفت الشركة عن Stable Audio، وهي أداة جماعية لتحويل النص إلى صوت. وتبعتها بإصدار Stable Audio 2.0 في 3 أبريل، الذي عزز وضوح الصوت ومدته.
يتمتع Stable Audio Open بإتاحة الاستخدام التجاري العام، ولكنه يركز على إنتاج مقاطع صوتية قصيرة، مثل المؤثرات الصوتية، بدلاً من الأغاني الكاملة. هذا النموذج ليس مفتوح المصدر بالكامل؛ بل يعمل بموجب اتفاقية ترخيص مجتمع البحث غير التجاري لشركة Stability AI، مما يوفر استخدامًا محدودًا.
قال زاكي إيفانز، رئيس قسم البحث الصوتي في Stability AI: "هدفنا مع Stable Audio Open هو منح الباحثين والمنتجين في مجال الصوت وصولًا عمليًا إلى أحد نماذجنا التوليدية لتسهيل البحث، والتبني، والاستكشاف الإبداعي".
ما هو Stable Audio Open؟
يتميز Stable Audio Open بقدرته على إنشاء إيقاعات الطبول، والنغمات الموسيقية، والأصوات المحيطية، وعينات صوتية أخرى من أجل إنتاج الموسيقى وتصميم الصوت. على عكس منتج Stable Audio التجاري، الذي يُنتج مسارات موسيقية متماسكة تصل مدتها إلى ثلاث دقائق، يركز Stable Audio Open على إنتاج مقاطع صوتية عالية الجودة تصل مدتها إلى 47 ثانية، مستندًا إلى الموجهات النصية.
تولي Stability AI أولوية للممارسات التدريبية المسؤولة، حيث تستخدم بيانات الصوت من FreeSound وأرشيف الموسيقى المجانية لتجنب أي مواد محمية بحقوق الطبع والنشر دون إذن.
تعديل دقيق للحرية الإبداعية
تتمثل إحدى المزايا المهمة لـ Stable Audio Open في قدرته على التعديل الدقيق، مما يتيح للمستخدمين تخصيص النموذج باستخدام بياناتهم الصوتية. على سبيل المثال، يمكن لعازفي الطبول تحسين النموذج باستخدام تسجيلاتهم لإنشاء إيقاعات فريدة.
تستخدم عملية التعديل الدقيق مكتبة أدوات Stable Audio، المرخصة بموجب إطار مفتوح المصدر. كما تتوفر أوزان النموذج على Hugging Face. وأضاف إيفانز: "يعمل فريق البحث الصوتي باستمرار على تعزيز جودة ونوعية التحكم في نماذجنا التوليدية للصوت. نتوقع إصدارات مستقبلية تجارية ومفتوحة تعكس تقدم أبحاثنا".