تقوم OpenAI بإطلاق "وضع الصوت المتقدم في ChatGPT" المنتظر بشغف، والذي يشمل واجهة صوت محادثة تشبه البشر، مما يوسع الوصول إلى مجموعة المستخدمين التجريبية الأولى وقائمة الانتظار. ستكون هذه الميزة متاحة لجميع المشتركين المدفوعين في خطط ChatGPT Plus وTeam، مع إمكانية الوصول التدريجي بدءًا من الولايات المتحدة خلال الأيام القليلة المقبلة. ويمكن لمشتركي خطط Edu وEnterprise توقع توفرها الأسبوع المقبل.
بالإضافة إلى واجهة الصوت، تقدم OpenAI إمكانية تخزين "تعليمات مخصصة" و"ذاكرة" لتفاعلات مخصصة، مما يعكس ميزات تم إصدارها سابقًا لخيار النص في ChatGPT. وسيستمتع المستخدمون بخمسة أنماط صوتية جديدة: Arbor وMaple وSol وSpruce وVale، بالإضافة إلى الأصوات الموجودة: Breeze وJuniper وCove وEmber.
تتيح هذه التحسينات لمستخدمي ChatGPT التفاعل مع chatbot من خلال الصوت بدلاً من الكتابة. ستظهر إشعار منبثق لتأكيد دخول المستخدمين إلى وضع المساعد الصوتي المتقدم في التطبيق. استثمرت OpenAI وقتًا في تحسين اللهجات للغات الأجنبية الشائعة وتعزيز سلاسة المحادثة منذ النسخة التجريبية الأولية. سيلاحظ المستخدمون أيضًا تصميمًا جديدًا لوضع الصوت المتقدم مع كرة زرقاء متحركة.
هذه التحديثات حصرية لنموذج GPT-4o، مع استثناء النموذج الجديد o1 التجريبي. كما ستعزز قدرات التعليمات المخصصة والذاكرة من تخصيص تفاعلات المستخدم أثناء المحادثات الصوتية.
بينما تكتسب مساعدات الصوت الذكية مثل Siri من آبل وAlexa من أمازون شعبية، يسعى المطورون لإنشاء تجارب محادثة تشبه البشر أكثر. تم دمج ChatGPT للوظائف الصوتية من خلال ميزة القراءة بصوت عالٍ؛ ومع ذلك، يهدف وضع الصوت المتقدم إلى تقديم تفاعل أكثر جاذبية وأصالة.
من بين المنافسين، أطلقت Hume AI مؤخرًا واجهة الصوت العاطفي، التي تكتشف المشاعر من خلال أنماط الصوت، بينما كشفت Kyutai عن مساعدها الصوتي المفتوح المصدر Moshi. أضافت Google أصواتًا إلى chatbot Gemini الخاص بها، في حين تعمل Meta على تطوير أصوات تقلد ممثلين شائعين لمنصتها الذكية. تدعي OpenAI أنها تجعل تقنية الصوت الذكية أكثر وصولاً مقارنة بمنافسيها.
رغم الحماس، لم يخل إدخال أصوات الذكاء الاصطناعي من الجدل. ظهرت مخاوف بشأن التشابه بين إحدى أصوات ChatGPT، Sky، وصوت الممثلة سكארليت جوهانسون، خاصة بعد إشارة الرئيس التنفيذي سام ألتمان إلى "هي"، مما يذكر بدور جوهانسون كمساعدة ذكاء اصطناعي في فيلم. أكدت OpenAI أنها لا تنوي تقليد أصوات الأفراد المعروفين، وتؤكد أن المستخدمين سيكون لديهم إمكانية الوصول فقط إلى تسع أصوات متميزة من OpenAI.
تم تأجيل الإطلاق في البداية من موعد مزمع في أواخر يونيو إلى "أواخر يوليو أو أوائل أغسطس"، جزئيًا بسبب الالتزام باختبارات السلامة. أجرت OpenAI تقييمات شاملة مع فرق خارجية متخصصة بطلاقة في 45 لغة عبر 29 منطقة. يشير قرار توسيع الوصول الآن إلى أن OpenAI تشعر بالثقة في الإجراءات الأمنية المتبعة، حيث تتماشى مع نهجها الحذر في التعاون مع حكومتي الولايات المتحدة والمملكة المتحدة وتقديم معاينات لنماذج جديدة قبل إطلاقها.