بعد إطلاق أدوات تحويل النص إلى صوت وتركيب الصوت إلى صوت بنجاح، تركز شركة الصوت الذكي ElevenLabs على آفاق جديدة. تأسست من قبل موظفين سابقين في جوجل وبالانطاير، وقدمت الشركة الناشئة التي تبلغ من العمر عامين ابتكارها الأخير: "تأثيرات صوتية"، وهي أداة ذكاء اصطناعي لتحويل النص إلى صوت.
تتوفر "تأثيرات صوتية" الآن على موقع ElevenLabs، وتستفيد من نموذجها الخاص، مما يمكّن المبدعين من توليد عينات صوتية متنوعة ببساطة عن طريق كتابة وصف للصوت المرغوب.
تم تقديم التأثيرات الصوتية لأول مرة في فبراير من خلال مقاطع تم إنشاؤها بواسطة Sora ومُعززة بالتأثيرات الصوتية AI، لتشكل نقلة نوعية للمبدعين الذين يسعون إلى تجارب صوتية غامرة.
ما الذي يمكن أن يتوقعه المبدعون من تأثيرات صوتية؟
في الماضي، كان إضافة الأصوات المحيطة إلى المحتوى - مثل مقاطع الفيديو الاجتماعية، والألعاب، والأفلام، والعروض التلفزيونية - يتطلب من المبدعين تسجيل الأصوات يدويًا أو شراء ملفات صوتية من مستودعات عبر الإنترنت، مما قد يكون مقيدًا ومرهقًا للميزانية.
تسهّل "تأثيرات صوتية" هذه العملية. يمكن للمستخدمين ببساطة وصف الصوت الذي يتخيلونه بلغة بسيطة وعفوية. يعالج النموذج الخلفي الطلب وينتج ست عينات صوتية فريدة ليختار المستخدمون من بينها. يمكنهم الاستماع إلى كل خيار وتحميل أو حفظ العينات المفضلة مباشرة من منصة ElevenLabs.
في الاختبارات الأولية، لاحظت وسيلة إعلامية أن "تأثيرات صوتية" أنتجت مخرجات واضحة خلال 30-40 ثانية، بالرغم من توليد أربع خيارات فقط بدلاً من ست. وشملت هذه العينات مجموعة متنوعة من الأصوات المحيطة، من أصوات عادية مثل العواصف الرعدية وجرس الأبواب إلى مؤثرات أكثر تعقيدًا مثل ضحكات القردة ووصول القطارات.
أشار ماتى ستانيشفسكي، الرئيس التنفيذي لشركة ElevenLabs، إلى أن الأداة قادرة على إنتاج عينات صوتية أطول، بما في ذلك الموسيقى الآلية وأصوات الشخصيات. "يمكن أن تنتج تأثيرات صوتية مقاطع موسيقية تصل إلى 22 ثانية باستخدام طلبات مثل 'نسيج غيتار' أو 'سولو ساكسفون جاز'"، كما أوضح. يمكن للمستخدمين أيضًا إنشاء أصوات للشخصيات مع طلبات مثل "امرأة تغني بينما ترقص على الرمل" أو "عملاق يقول: 'ابتعد، أيها الإنسان الصغير.'" بالإضافة إلى ذلك، يمكن للمستخدمين ربط الأصوات معًا بواسطة طلبات مثل "امرأة مسنّة سعيدة تقول، أنا فخورة بك، ثم تضحك."
لم يتم الكشف عن تفاصيل محددة حول النموذج الأساسي، لكن ElevenLabs أكدت أنه تم تطويره من خلال أبحاث داخلية وتم تحسينه باستخدام مكتبة Shutterstock الواسعة من المقطوعات الصوتية المرخصة. أعربت إيمي إجان، رئيسة قسم المؤسسات في Shutterstock، عن حماسها للتعاون، قائلةً: "لقد نتج عن التآزر بين مكتبتنا الغنية وهذه التكنولوجيا الصوتية المبتكرة أول تقديم حقيقي في السوق."
الهدف من تمكين المبدعين عالميًا
منذ إطلاقها، كانت ElevenLabs ملتزمة بخلق حلول صوتية متقدمة قائمة على الذكاء الاصطناعي. بدأت الشركة بنماذج تحويل النص إلى صوت بعدة لغات، تلتها منتجات بارزة مثل استنساخ الصوت والدبلجة بالذكاء الاصطناعي، والتي تترجم الصوت والفيديو إلى 29 لغة مع الحفاظ على صوت المتحدث الأصلي.
مع "تأثيرات صوتية"، توسع ElevenLabs عروضها، مقدمة للمبدعين - بما في ذلك صانعي الأفلام، مطوري الألعاب، المسوقين، والمؤثرين على وسائل التواصل الاجتماعي - أدوات قوية جديدة لتحسين محتواهم.
على الرغم من أن ستانيشفسكي لم يكشف عن شركات محددة تختبر المنتج حاليًا، فقد ذكر أن ElevenLabs تخدم 41% من قائمة Fortune 500، مع عملاء بارزين مثل The Washington Post وStorytel وTheSoul Publishing.
وتخطط الشركة في المستقبل لإطلاق نموذج لتوليد الموسيقى واستوديو للتعليق الصوتي، وكلاهما في مرحلة الاختبار الأولي، رغم أن الجداول الزمنية لا تزال غير مؤكدة.
تشهد سوق توليد الكلام والصوت والموسيقى القائم على الذكاء الاصطناعي نموًا متسارعًا، مع وجود منافسين مثل جوجل، ميتا، سونو، بيكا، MURF.AI، Play.ht، وWellSaid Labs. وكما أفادت Market US، بلغت السوق العالمية لهذه الأدوات 1.2 مليار دولار في عام 2022 ومن المتوقع أن تنمو إلى ما يقارب 5 مليارات دولار بحلول عام 2032، بمعدل نمو سنوي مركب يزيد عن 15.40%.