اليوم، كشفت شركة Camb AI، ومقرها دبي، عن Mars5، نموذج متقدم للذكاء الاصطناعي في تقنيات استنساخ الصوت. بينما يمكن أن تنتج العديد من النماذج، مثل تلك التي تقدمها ElevenLabs، نسخًا رقمية من الصوت، فإن Camb AI تميز نفسها بتقديم واقع غير مسبوق مع Mars5. وفقًا لعينات أولية من الشركة، لا يقتصر Mars5 على تقليد الصوت الأصلي فحسب، بل يلتقط أيضًا عناصر نغمية معقدة مثل الإيقاع والعواطف والتنغيم.
تدعم Camb AI ما يقرب من ثلاثة أضعاف عدد اللغات مقارنة بـ ElevenLabs، حيث تقدم أكثر من 140 لغة، بما في ذلك اللغات الأقل شيوعًا مثل الإيسلندية والسواحيلية، بينما تقتصر ElevenLabs على 36 لغة. ومع ذلك، النسخة المفتوحة المصدر المخصصة للغة الإنجليزية متاحة على GitHub بدءًا من اليوم، بينما يمكن الوصول إلى دعم اللغات الأوسع من خلال منصة Camb المدفوعة.
قال أكشات براكاش، المؤسس المشارك ومدير التقنية: "إن مستوى النغمة والواقعية الذي يحققه Mars5 باستخدام ثوانٍ معدودة من الإدخال غير مسبوق. هذه لحظة ثورية في تكنولوجيا الصوت".
دمج استنساخ الصوت مع تحويل النص إلى كلام
تقليديًا، يعد استنساخ الصوت وتحويل النص إلى كلام عمليتين منفصلتين: حيث يقوم استنساخ الصوت بإنشاء صوت اصطناعي من عينات صوتية، بينما يستخدم تحويل النص إلى كلام هذا الصوت لقراءة النص. ومع ذلك، يجمع Mars5 بين كلا القدرتين في منصة واحدة. يمكن للمستخدمين ببساطة تحميل ملف صوتي يتراوح طوله بين ثوانٍ ودقيقة واحدة وتقديم النص المطلوب تحويله. يقوم النموذج بتحليل الصوت لاستنساخ صوت المتحدث وأسلوبه وعواطفه ومعناه، محولًا النص إلى كلام طبيعي.
تزعم Camb AI أن Mars5 يتمكن من التقاط مجموعة واسعة من النغمات العاطفية، مما يعالج حالات الكلام المعقدة مثل الإحباط أو الأمر أو الهدوء أو الحماس. هذا التنوع يجعل Mars5 مثاليًا للمحتوى الصعب تقليديًا، مثل التعليق الرياضي والأفلام والأنمي.
لتحقيق هذا المستوى من النغمة، يجمع Mars5 بين نموذج تلقائي المولد يحتوي على حوالي 750 مليون متغير ونموذج انتشاري متعدد الحدود غير تلقائي يحتوي على حوالي 450 مليون متغير، باستخدام رموز ترميز بمعدل 6 كيلوبت في الثانية. وأضاف براكاش: "يتنبأ النموذج التلقائي بأبسط قيم رموز المميزات، بينما يقوم النموذج غير التلقائي بتحسين هذه التوقعات، ‘بتعبئة’ القيم المتبقية".
الأداء مقارنة بالنماذج الأخرى
بينما لا تزال إحصائيات المعايير المحددة قيد الانتظار، تشير الاختبارات المبكرة إلى أن Mars5 يتفوق على نماذج توليد الكلام الشهيرة، بما في ذلك Metavoice وElevenLabs، منتجًا نتائج تشبه الصوت الأصلي بشكل أكبر من منافسيه. أضاف براكاش: "على الرغم من أن ElevenLabs تدربت على مجموعة بيانات أكبر بكثير تتجاوز 500 ألف ساعة، فإن تصميم نموذجنا يلتقط تفاصيل الكلام بشكل أكثر فعالية. ومع توسيع مجموعات البيانات لدينا وتدريب Mars5 بشكل أكبر، وتحديثه على GitHub، نتوقع تحسنات أكبر".
تستعد Camb AI أيضًا لإطلاق نموذج مفتوح المصدر آخر يسمى Boli، مصمم للترجمة ويفهم السياق، ويضمن الدقة النحوية، ويلتقط الفروق اللهجية. قال براكاش: "يتفوق Boli على أدوات الترجمة التقليدية مثل Google Translate في تقديم ترجمة دقيقة وملائمة ثقافياً، خصوصًا للغات ذات الموارد المحدودة".
حاليًا، يقدم كل من Mars5 وBoli دعمًا لـ 140 لغة على منصة Camb الخاصة، Camb Studio، وتقدم الشركة هذه الإمكانيات كواجهات برمجة تطبيقات للمؤسسات والشركات الصغيرة والمتوسطة والمطورين. تتعاون Camb AI مع دوري كرة القدم الأمريكية، وتنس أستراليا، وMaple Leaf Sports & Entertainment، فضلاً عن استوديوهات الأفلام والموسيقى الرائدة ووكالات حكومية متعددة.
ومن الجدير بالذكر أن Camb AI صنعت التاريخ من خلال دبلجة مباشرة لمباراة دوري كرة القدم الأمريكية إلى أربع لغات في آن واحد لأكثر من ساعتين، بالإضافة إلى ترجمة المؤتمر الصحفي بعد مباراة أستراليا المفتوحة إلى عدة لغات، وتحويل الإثارة النفسية "الثلاثة" من العربية إلى الماندرين.