استقرار AI يطلق Stable Audio 2.0: وضوح محسّن وقوة في حلول الصوت المدعومة بالذكاء الاصطناعي التوليدي.

Home أخبار الذكاء الاصطناعي استقرار AI يطلق Stable Audio 2.0: وضوح محسّن وقوة في حلول الصوت المدعومة بالذكاء الاصطناعي التوليدي.

Updated on أبريل 2 2024

تعمل Stability AI على تعزيز رؤيتها لتقنية الذكاء الاصطناعي التوليدي مع إطلاق نموذج Stable Audio 2.0. بينما تُعرف الشركة على نطاق واسع بنماذج تحويل النص إلى صورة مثل Stable Diffusion، فإنها توسيع محفظتها. ظهر Stable Audio لأول مرة في سبتمبر 2023، مما يسمح للمستخدمين بإنشاء مقاطع صوتية قصيرة بناءً على أوامر نصية. مع Stable Audio 2.0، يمكن للمستخدمين الآن توليد مقاطع صوتية عالية الجودة تصل مدتها إلى ثلاث دقائق، مما يعني ضعف مدة النسخة الأصلية التي كانت 90 ثانية فقط.

بالإضافة إلى توليد الصوت من النصوص، يقدم Stable Audio 2.0 إمكانيات تحويل الصوت إلى صوت، مما يمكّن المستخدمين من تحميل عينات واستخدامها كأوامر. النموذج متاح حاليا للاستخدام المجاني المحدود على موقع Stable Audio، مع توفر الوصول إلى واجهة برمجة التطبيقات (API) قريبًا للمطورين الباحثين عن بناء خدمات مبتكرة.

يمثل إصدار Stable Audio 2.0 أول تحديث كبير لـ Stability AI منذ الاستقالة المفاجئة للرئيس التنفيذي والمؤسس السابق عماد مصطقي في مارس. وتؤكد الشركة للمستخدمين أن التحديث يدل على استمرار العمليات التجارية.

تحسينات من Stable Audio 1.0 إلى 2.0

استفاد تطوير Stable Audio 2.0 من الدروس القيمة المستخلصة من النسخة السابقة، Stable Audio 1.0. أشار زاك إيفانز، رئيس أبحاث الصوت في Stability AI، إلى أن التركيز خلال الإطلاق الأول كان على إطلاق نموذج مبتكر يتمتع بدقة صوتية عالية ومدة إخراج مفيدة. وقال إيفانز: “منذ ذلك الحين، ركزنا على تعزيز الموسيقية، وتمديد مدة الإخراج، وتحسين الاستجابة للأوامر التفصيلية. تهدف هذه التحسينات إلى جعل التكنولوجيا أكثر تطبيقًا في السيناريوهات الواقعية”.

يمكن الآن لـ Stable Audio 2.0 إنتاج مقاطع موسيقية كاملة تتميز بهياكل متماسكة. باستخدام تقنية الانتشار الكامن، يستطيع النموذج توليد مؤلفات تستمر لمدة تصل إلى ثلاث دقائق، مع أقسام مدخل وتطوير وخاتمة متميزة، وهي ترقية كبيرة من قدرته السابقة على إنشاء حلقات أو مقاطع قصيرة فقط.

التقنية وراء Stable Audio 2.0

يواصل Stable Audio 2.0 الاستفادة من نموذج الانتشار الكامن (LDM). بعد إصدار النسخة التجريبية (بيتا) من Stable Audio 1.1 في ديسمبر 2023، تم دمج هيكل دعم التحويل، مما أدى إلى إنشاء بنية "محول الانتشار". وأضاف إيفانز: "قمنا بتحسين ضغط البيانات المطبق على الصوت أثناء التدريب، مما مكننا من توسيع المخرجات إلى ثلاث دقائق وأكثر مع الحفاظ على أوقات استدلال فعالة".

تحسينات في القدرات الإبداعية

مع Stable Audio 2.0، يمكن للمستخدمين توليد صوت ليس فقط من الأوامر النصية، ولكن أيضًا من عينات صوتية تم تحميلها. يمكن استخدام التعليمات الطبيعية لتحويل الأصوات بشكل إبداعي، مما يمكّن من عمليات التكرار والتعديل. كما يوسع النموذج طيف المؤثرات الصوتية والملمس. يمكن للمستخدمين الآن الطلب منه إنشاء بيئات غامرة، وأصوات محيطية، وجماهير، ومناظر حضرية، والمزيد. بالإضافة إلى ذلك، يسمح بتعديلات على الأسلوب والنغمة للصوت المولد والصوت المحمل.

معالجة القضايا المتعلقة بحقوق الطبع والنشر في الصوت التوليدي

تظل اعتبارات حقوق الطبع والنشر قضية مهمة في مجال الذكاء الاصطناعي التوليدي. تلتزم Stability AI بحماية حقوق الملكية الفكرية مع نموذج الصوت الجديد. لتخفيف مخاوف حقوق الطبع والنشر، تم تدريب Stable Audio 2.0 حصريًا على بيانات مرخصة من AudioSparx، ويحترم طلبات الانسحاب. تراقب تقنية التعرف على المحتوى عمليات تحميل الصوت لمنع معالجة المحتوى المحمي بحقوق الطبع والنشر.

يعد حماية حقوق الطبع والنشر أمرًا أساسيًا لشركة Stability AI لتسويق Stable Audio بشكل ناجح وضمان استخدام آمن للمنظمات. حاليًا، يولّد Stable Audio إيرادات من خلال الاشتراكات في تطبيقه على الويب، مع إطلاق واجهة برمجة التطبيقات قريبًا.

ومع ذلك، فإن Stable Audio ليس نموذجًا مفتوحًا في الوقت الحالي. وأكد إيفانز: "لن تتوفر أوزان Stable Audio 2.0 للتنزيل، لكننا نعمل على تطوير نماذج صوتية مفتوحة للإصدار في وقت لاحق من هذا العام."

جوجل كلاود وCSA: قيادة C-Suite تعزز من سرعة اعتماد الذكاء الاصطناعي التوليدي في مجال الأمن السيبراني لعام 2024

أمازون ويب سيرفيسز تُطلق نموذج ميسترال الكبير على منصة أمازون بيدروك لتعزيز قدرات الذكاء الاصطناعي.

Most people like

SubTranslateAI.com

26K

نقدم لكم منصة مدعومة بالذكاء الاصطناعي لتعزيز إمكانية الوصول إلى الفيديوهات في عالمنا الرقمي اليوم، تعتبر إمكانية الوصول إلى الفيديوهات أمرًا ضروريًا لجذب جمهور متنوع. تتحول منصتنا المبتكرة المدفوعة بالذكاء الاصطناعي محتوى الفيديو من خلال توليد التعليقات التوضيحية، والنصوص، والترجمات تلقائيًا، مما يجعلها متاحة للجميع، بما في ذلك الأفراد ذوي الإعاقات السمعية والمتحدثين غير الأصليين. انضم إلينا لجعل محتوى الفيديو متاحًا للجميع، واستمتع بكامل إمكانيات وسائطك لجميع المشاهدين.

ترجمة الفيديو المدعومة بالذكاء الاصطناعي Translate

Intapp

94.3K

ثورة العمليات: حلول برمجيات الذكاء الاصطناعي لشركات الخدمات المالية اكتشف كيف تعمل حلول برمجيات الذكاء الاصطناعي على تحويل العمليات داخل شركات الخدمات المالية. من خلال والاستفادة من التقنية الحديثة، تعزز هذه الأدوات المبتكرة الكفاءة، وتقلل التكاليف، وتحسن عمليات اتخاذ القرار. استكشف مستقبل المالية حيث تفتح عمليات التحسين والأتمتة الذكية الطريق لنمو غير مسبوق.

حلول الذكاء الاصطناعي AI CRM Assistant

Morpher AI

276.7K

احصل على رؤى فورية حول العملات المشفرة، والأسهم، والسلع، وسوق الفوركس، والمزيد من خلال تحليلنا السوقي في الوقت الحقيقي. ابقَ على اطلاع واتخذ قرارات استثمارية أكثر ذكاءً في بيئة المال السريعة اليوم.

منصة التداول AI Trading Bot Assistant

Mathos AI

ماثوس للذكاء الاصطناعي: حلال الرياضيات بالذكاء الاصطناعي مع دعم التعلم خطوة بخطوة.

حاسبة رياضية Homework Helper

Find AI tools in YBX