استنساخ الصوت: مستقبل توليد الصوت باستخدام الذكاء الاصطناعي
استنساخ الصوت هو مجال متطور سريعًا ضمن الذكاء الاصطناعي التوليدي، يتضمن تكرار الخصائص الصوتية للشخص، مثل النغمة والحبكة والإيقاع والتصرفات ونطق الكلمات بشكل فريد باستخدام تقنيات متقدمة. وقد جذبت الشركات الناشئة مثل ElevenLabs تمويلات كبيرة لهذا الغرض، بينما قدمت شركة ميتا، المالكة لفيسبوك وإنستغرام وواتساب وOculus VR، أداة استنساخ صوت مجانية تُعرف باسم Audiobox، رغم بعض القيود.
مقدمة عن Audiobox
تم الكشف عن Audiobox من قبل الباحثين في مختبر الذكاء الاصطناعي بفيسبوك (FAIR)، ووُصف كنموذج بحث أساسي لتوليد الصوت، معتمدًا على أعمال سابقة مع Voicebox. وفقًا لموقع Audiobox، "يمكنه توليد أصوات وتأثيرات صوتية باستخدام مزيج من مدخلات الصوت ونصوص اللغة الطبيعية، مما يسهل إنشاء محتوى صوتي مخصص لمختلف الاستخدامات."
يمكن للمستخدمين ببساطة كتابة جملة ليتحدث بها الصوت المستنسخ أو وصف صوت يرغبون في توليده. بدلاً من ذلك، يمكنهم تسجيل صوتهم الخاص واستنساخه عبر Audiobox.
عائلة من نماذج توليد الصوت
طورت ميتا "عائلة من النماذج"، بما في ذلك نموذج لمحاكاة الكلام وآخر لتأثيرات صوتية محيطية مثل نبح الكلاب أو صفارات الإنذار، وكلها تعتمد على نموذج التعلم الذاتي المشترك (SSL) المعروف باسم Audiobox SSL.
التعلم الذاتي هو تقنية تعلم عميق حيث تولد خوارزميات الذكاء الاصطناعي تسميات خاصة بها للبيانات غير المصنفة، على عكس التعلم المعتمد على إشراف مسبق الذي يعتمد على بيانات مصنفة سابقًا. يوضح بحث الباحثين نهجهم، مؤكدين أن "البيانات المصنفة ليست دائمًا متاحة أو عالية الجودة؛ لذلك، استراتيجيتنا هي التدريب باستخدام الصوت دون إشراف، مثل النصوص أو العناوين."
غالبًا ما تعتمد نماذج الذكاء الاصطناعي التوليدية الرائدة، بما في ذلك Audiobox، على بيانات تم إنتاجها بواسطة البشر للتدريب. في هذه الحالة، استخدم باحثو FAIR "160K ساعة من الكلام (في الغالب باللغة الإنجليزية)، و20K ساعة من الموسيقى، و6K ساعة من عينات الصوت." تشمل بيانات الكلام الكتب الصوتية والبودكاست والمحادثات والتسجيلات في بيئات صوتية متنوعة، تشمل متحدثين من أكثر من 150 دولة وأكثر من 200 لغة رئيسية.
بينما لا يحدد البحث مصادر هذه البيانات، يثير قضية مهمة: حيث أعرب صانعو المحتوى ومالكو الحقوق عن مخاوفهم بشأن تدريب شركات الذكاء الاصطناعي لنماذج باستخدام مواد محمية بحقوق الطبع والنشر دون الحصول على موافقة مناسبة. أكدت ميتا في رسالة عبر البريد الإلكتروني أن "Audiobox تم تدريبه على مجموعات بيانات متاحة للجمهور ومرخصة"، ولكن لم تكشف عن مصادر محددة.
جرب Audiobox بنفسك
تتيح ميتا تجارب تفاعلية تعرض قدرات Audiobox، مما يسمح للمستخدمين بتسجيل صوتهم، وإنتاج صوت مستنسخ، ثم إدخال نص ليتحدث به. في تجربتي، كان الصوت الناتج مشابهًا بشكل مذهل لصوتي—كما أكد أفراد عائلتي الذين سمعوا الصوت دون معرفة مصدره.
يمكن للمستخدمين أيضًا إنشاء أصوات جديدة تمامًا بناءً على أوصاف نصية مثل "صوت نسائي عميق" أو "متحدث ذكوري ذو صوت عالي من الولايات المتحدة"، وتوليد أصوات متنوعة، مثل نباح الكلاب. اختبرت هذه الميزة مع "نبح الكلاب" وحصلت على نتيجتين مقنعتين.
ومع ذلك، هناك قيد كبير: تنص عبارة إخلاء المسؤولية على أن "هذه تجربة بحثية وقد لا تُستخدم لأغراض تجارية." علاوة على ذلك، فهي محدودة للمستخدمين خارج إلينوي وتكساس بسبب قوانين الولاية التي تحكم جمع الصوت.
مستقبل Audiobox وتوليد الصوت بالذكاء الاصطناعي
بخلاف أداة توليد الصور الحديثة Imagine by Meta AI، فإن Audiobox ليست مفتوحة المصدر، مما يختلف عن التزام ميتا السابق بالشفافية، كما يظهر في عائلة نماذج اللغة الكبيرة Llama 2. أشار متحدث باسم ميتا إلى أنهم يخططون لدعوة الباحثين والمؤسسات الأكاديمية لتقديم طلبات للحصول على منح تركز على الأبحاث المتعلقة بالسلامة والمسؤولية مع Audiobox.
حاليًا، لا يمكن استخدام Audiobox لأغراض تجارية، ولا يتوفر لسكان اثنتين من أكبر الولايات الأمريكية من حيث عدد السكان. ومع ذلك، مع استمرار تطور تكنولوجيا الذكاء الاصطناعي بسرعة، يمكننا توقع ظهور نسخ تجارية—سواء من ميتا أو مطورين آخرين.