توسّع OpenAI في مجالات جديدة تتجاوز توليد النصوص والصور ومقاطع الفيديو مع تقدم كبير في تقنية الصوت: استنساخ الصوت. اليوم، أعلنت الشركة عن نموذجها الجديد للذكاء الاصطناعي، "محرك الصوت". تم تطوير هذا النموذج منذ عام 2022، وهو يشغل واجهة برمجة التطبيقات لتحويل النص إلى كلام، بالإضافة إلى الميزات الجديدة "الدردشة الصوتية" و"قراءة النص بصوت مرتفع" التي تم تقديمها في وقت سابق من هذا الشهر.
كيفية عمل استنساخ الصوت
يمكن لمحرّك الصوت إنشاء استنساخات صوتية واقعية من خلال تسجيل شخص ما لمقطع صوتي مدته 15 ثانية عبر ميكروفون الهاتف أو الكمبيوتر. يقوم الذكاء الاصطناعي بعد ذلك بإنشاء خطاب طبيعي يبدو مشابهًا جدًا للمتحدث الأصلي، مما يمكّن المستخدمين من تحويل أي نص مكتوب إلى كلمات منطوقة.
تداعيات رئيسية على سوق الصوت المنطوق
تمتلك هذه التقنية إمكانيات هائلة للأفراد الذين يتحدثون علنًا بشكل متكرر، مثل مدوني الصوت، وفناني التعليق الصوتي، ومقدمي الكتب الصوتية، وألعاب الفيديو، وممثلي خدمة العملاء. علاوة على ذلك، تُعتبر تحديًا للشركات المنافسة في هذا المجال، مثل ElevenLabs وCaptions وMeta وWellSaid Labs وMyShell.
تُبرز OpenAI أيضًا قدرة محرك الصوت على مساعدة الأفراد غير القادرين على الكلام من خلال تقديم أصوات فريدة وغير آلية، مما يمكن أن يكون مفيدًا في الأوضاع العلاجية والتعليمية للأشخاص الذين يعانون من صعوبات في النطق أو التعلّم.
حالات الاستخدام الأولية
في إعلانها، أشارت OpenAI إلى أن محرك الصوت متاح حاليًا لمجموعة صغيرة من الشركاء الموثوقين، بما في ذلك:
- Age of Learning: تستخدم محرك الصوت و GPT-4 لإنشاء محتوى صوتي مخصص لجمهور الطلاب المتنوع.
- HeyGen: تستخدم التقنية في ترجمة الفيديو، مما يُنتج صور رمزية مخصصة بأصوات متعددة اللغات واقعية لتعزيز التواصل العالمي.
- Dimagi: تدمج محرك الصوت لتقديم ملاحظات تفاعلية متعددة اللغات للعاملين في مجال الصحة المجتمعية، مما يُحسن خدمات التوصيل في المناطق النائية.
- Livox: تُعزّز تطبيقها لدعم التواصل المعزز باستخدام محرك الصوت، مما يُوفر أصواتًا فريدة للأشخاص الذين يعانون من إعاقات في النطق والسمع.
- معهد نورمان برينس لعلوم الأعصاب في Lifespan: تستخدم التقنية لمساعدة المرضى الذين يعانون من اضطرابات النطق، مما يساعد بشكل خاص على استعادة صوت مريض ورم الدماغ بناءً على عينة صوت سابقة.
قدمت OpenAI عينات صوتية توضح قدرات التكنولوجيا، بما في ذلك مقارنة بين الصوت الأصلي للمريض والإصدار المستنسخ باستخدام محرك الصوت.
الوصول المحدود والنشر الحذر
في الوقت الحالي، لا يتوفر محرك الصوت للجمهور العام. تشارك OpenAI رؤى ونتائج من معاينة محدودة مع الشركاء الموثوقين فقط. صرحت الشركة، "نتعامل بحذر ووعي بشأن الإصدار الأوسع بسبب إمكانية سوء استخدام الصوت الاصطناعي." تهدف OpenAI إلى بدء مناقشات حول الاستخدام المسؤول للأصوات الاصطناعية وتقييم كيفية تأقلم المجتمع مع هذه التطورات.
يتماشى نهج OpenAI في إطلاق محرك الصوت مع الدعوات الأخيرة للتنظيم بشأن تقليد الأصوات الأصطناعية. لضمان الاستخدام الأخلاقي، يتعين على الشركاء الذين يختبرون التكنولوجيا الالتزام بسياسات صارمة تحظر التقليد غير المصرح به وتتطلب الحصول على موافقة مستنيرة من المتبرعين بالأصوات. بالإضافة إلى ذلك، تنفذ OpenAI إجراءات سلامة، بما في ذلك وضع علامات مائية ومراقبة استباقية، لتعزيز الاستخدام المسؤول للتكنولوجيا.