ميتّا تطلق "أوديوبوكس": أداة ذكاء اصطناعي_clone أصواتًـا وتخلق أجواءً صوتية

Home أخبار الذكاء الاصطناعي ميتّا تطلق "أوديوبوكس": أداة ذكاء اصطناعي_clone أصواتًـا وتخلق أجواءً صوتية

Updated on ديسمبر 11 2023

استنساخ الصوت: مستقبل توليد الصوت باستخدام الذكاء الاصطناعي

استنساخ الصوت هو مجال متطور سريعًا ضمن الذكاء الاصطناعي التوليدي، يتضمن تكرار الخصائص الصوتية للشخص، مثل النغمة والحبكة والإيقاع والتصرفات ونطق الكلمات بشكل فريد باستخدام تقنيات متقدمة. وقد جذبت الشركات الناشئة مثل ElevenLabs تمويلات كبيرة لهذا الغرض، بينما قدمت شركة ميتا، المالكة لفيسبوك وإنستغرام وواتساب وOculus VR، أداة استنساخ صوت مجانية تُعرف باسم Audiobox، رغم بعض القيود.

مقدمة عن Audiobox

تم الكشف عن Audiobox من قبل الباحثين في مختبر الذكاء الاصطناعي بفيسبوك (FAIR)، ووُصف كنموذج بحث أساسي لتوليد الصوت، معتمدًا على أعمال سابقة مع Voicebox. وفقًا لموقع Audiobox، "يمكنه توليد أصوات وتأثيرات صوتية باستخدام مزيج من مدخلات الصوت ونصوص اللغة الطبيعية، مما يسهل إنشاء محتوى صوتي مخصص لمختلف الاستخدامات."

يمكن للمستخدمين ببساطة كتابة جملة ليتحدث بها الصوت المستنسخ أو وصف صوت يرغبون في توليده. بدلاً من ذلك، يمكنهم تسجيل صوتهم الخاص واستنساخه عبر Audiobox.

عائلة من نماذج توليد الصوت

طورت ميتا "عائلة من النماذج"، بما في ذلك نموذج لمحاكاة الكلام وآخر لتأثيرات صوتية محيطية مثل نبح الكلاب أو صفارات الإنذار، وكلها تعتمد على نموذج التعلم الذاتي المشترك (SSL) المعروف باسم Audiobox SSL.

التعلم الذاتي هو تقنية تعلم عميق حيث تولد خوارزميات الذكاء الاصطناعي تسميات خاصة بها للبيانات غير المصنفة، على عكس التعلم المعتمد على إشراف مسبق الذي يعتمد على بيانات مصنفة سابقًا. يوضح بحث الباحثين نهجهم، مؤكدين أن "البيانات المصنفة ليست دائمًا متاحة أو عالية الجودة؛ لذلك، استراتيجيتنا هي التدريب باستخدام الصوت دون إشراف، مثل النصوص أو العناوين."

غالبًا ما تعتمد نماذج الذكاء الاصطناعي التوليدية الرائدة، بما في ذلك Audiobox، على بيانات تم إنتاجها بواسطة البشر للتدريب. في هذه الحالة، استخدم باحثو FAIR "160K ساعة من الكلام (في الغالب باللغة الإنجليزية)، و20K ساعة من الموسيقى، و6K ساعة من عينات الصوت." تشمل بيانات الكلام الكتب الصوتية والبودكاست والمحادثات والتسجيلات في بيئات صوتية متنوعة، تشمل متحدثين من أكثر من 150 دولة وأكثر من 200 لغة رئيسية.

بينما لا يحدد البحث مصادر هذه البيانات، يثير قضية مهمة: حيث أعرب صانعو المحتوى ومالكو الحقوق عن مخاوفهم بشأن تدريب شركات الذكاء الاصطناعي لنماذج باستخدام مواد محمية بحقوق الطبع والنشر دون الحصول على موافقة مناسبة. أكدت ميتا في رسالة عبر البريد الإلكتروني أن "Audiobox تم تدريبه على مجموعات بيانات متاحة للجمهور ومرخصة"، ولكن لم تكشف عن مصادر محددة.

جرب Audiobox بنفسك

تتيح ميتا تجارب تفاعلية تعرض قدرات Audiobox، مما يسمح للمستخدمين بتسجيل صوتهم، وإنتاج صوت مستنسخ، ثم إدخال نص ليتحدث به. في تجربتي، كان الصوت الناتج مشابهًا بشكل مذهل لصوتي—كما أكد أفراد عائلتي الذين سمعوا الصوت دون معرفة مصدره.

يمكن للمستخدمين أيضًا إنشاء أصوات جديدة تمامًا بناءً على أوصاف نصية مثل "صوت نسائي عميق" أو "متحدث ذكوري ذو صوت عالي من الولايات المتحدة"، وتوليد أصوات متنوعة، مثل نباح الكلاب. اختبرت هذه الميزة مع "نبح الكلاب" وحصلت على نتيجتين مقنعتين.

ومع ذلك، هناك قيد كبير: تنص عبارة إخلاء المسؤولية على أن "هذه تجربة بحثية وقد لا تُستخدم لأغراض تجارية." علاوة على ذلك، فهي محدودة للمستخدمين خارج إلينوي وتكساس بسبب قوانين الولاية التي تحكم جمع الصوت.

مستقبل Audiobox وتوليد الصوت بالذكاء الاصطناعي

بخلاف أداة توليد الصور الحديثة Imagine by Meta AI، فإن Audiobox ليست مفتوحة المصدر، مما يختلف عن التزام ميتا السابق بالشفافية، كما يظهر في عائلة نماذج اللغة الكبيرة Llama 2. أشار متحدث باسم ميتا إلى أنهم يخططون لدعوة الباحثين والمؤسسات الأكاديمية لتقديم طلبات للحصول على منح تركز على الأبحاث المتعلقة بالسلامة والمسؤولية مع Audiobox.

حاليًا، لا يمكن استخدام Audiobox لأغراض تجارية، ولا يتوفر لسكان اثنتين من أكبر الولايات الأمريكية من حيث عدد السكان. ومع ذلك، مع استمرار تطور تكنولوجيا الذكاء الاصطناعي بسرعة، يمكننا توقع ظهور نسخ تجارية—سواء من ميتا أو مطورين آخرين.

استكشاف عالم الذكاء الاصطناعي: كيف يوجه Glasswing AI Palette الشركات الناشئة لتجاوز الكلمات الرائجة

أنتروبك تقود مبادرة لمكافحة تحيز الذكاء الاصطناعي والتمييز من خلال أبحاث رائدة

Most people like

Amplemarket

144.7K

نقدم لكم المنصة الذكية المثالية المصممة خصيصًا لفرق المبيعات اليوم. تهدف هذه الحلول المبتكرة إلى تعزيز الكفاءة وزيادة الإنتاجية من خلال استخدام الذكاء الاصطناعي لتحسين العمليات، وتنظيم سير العمل، وتعزيز تفاعل العملاء. حول استراتيجيتك في المبيعات مع التكنولوجيا المتطورة التي تمكّن فريقك من تحقيق نتائج استثنائية.

منصة الذكاء الاصطناعي Sales Assistant

HeyBeauty

9.9K

حوّل تجربة موضتك: إطلاق مستقبل الأناقة في عالم اليوم السريع، تتطور طرق تعاملنا مع الموضة بسرعة. اكتشف كيف أن التقنيات المبتكرة والأساليب الإبداعية تعيد تشكيل مشهد الموضة، مما يجعلها أكثر تخصيصًا، وصولًا، واستدامة. ادخل إلى مستقبل الأناقة وتعلم كيف تعزز رحلتك في عالم الموضة كما لم يحدث من قبل.

مدعوم بالذكاء الاصطناعي Other

DocumentPro

5.5K

يعمل DocumentPro على تسريع إدخال البيانات من خلال استخراج المعلومات الحيوية من المستندات والبريد الإلكتروني بكفاءة. من خلال أتمتة هذه العمليات، يساعدك على توفير الوقت وتقليل الأخطاء، مما يعزز الإنتاجية في سير العمل لديك.

استخراج البيانات المدعوم بالذكاء الاصطناعي AI Document Extraction

Zeemo AI

4.6M

نقدم لكم زيمو AI، الحل المتقدم المصمم لتحويل محتوى الفيديو الخاص بكم عبر تحويل الصوت إلى نص بدقة وسرعة. اختبروا قوة الترجمة السلسة التي تعزز إمكانية الوصول وتزيد من التفاعل.

ترجمات Captions or Subtitle

Find AI tools in YBX