أعلنت OpenAI مؤخرًا عبر منصة X (المعروفة سابقًا بتويتر) عن بدء طرح ميزة الصوت المتقدم لتطبيق ChatGPT "الأسبوع المقبل"، مبدئيًا لمجموعة مختارة من مشتركي ChatGPT-Plus. يهدف هذا الاختبار التجريبي إلى جمع آراء المستخدمين قبل توسيع الميزة بناءً على تقييماتهم.
تتيح ميزة الصوت المتقدم التفاعل الطبيعي للمستخدمين دون الاعتماد على الأوامر النصية، مما يجعل المحادثة تشبه التحدث مع شخص آخر. تم تقديم هذه الميزة لأول مرة في مايو خلال إطلاق GPT-4o في فعالية تحديث الربيع الخاصة بالشركة، وتتميز عن المساعدات الرقمية التقليدية مثل Siri وGoogle Assistant، التي غالبًا ما تقدم ردودًا معدة مسبقًا. على عكس هذه الأنظمة، يوفر صوت ChatGPT المتقدم ردودًا شبه فورية وأشبه بالبشر بلغات متعددة. يتمتع نموذج GPT-4o بمتوسط زمن استجابة صوتية يبلغ 320 مللي ثانية فقط، مما يجعله قريبًا من سرعة المحادثة البشرية. في الفيديو التوضيحي، يمكن للمشاهدين رؤية كيف يتفاعل النموذج مع عدة مستخدمين، improvises المناقشات باللغتين الإنجليزية والبرتغالية، ويظهر مشاعر بشرية مثل الضحك.
لا تزال تفاصيل كيفية اختيار المشاركين للاختبار التجريبي غير واضحة، على الرغم من أنه يجب أن يكونوا مشتركين في ChatGPT Plus مقابل 20 دولارًا شهريًا. كان من المقرر في البداية إطلاق النسخة التجريبية في يونيو، لكنها تأخرت لتعزيز قدرات نظام إدارة المحتوى وتقوية البنية التحتية لتكنولوجيا المعلومات للاستجابة للطلب المتوقع من المستخدمين. كما تم الإعلان عنه في يونيو، من المتوقع أن يتم الطرح الكامل لصوت متقدم في وقت لاحق من هذا الخريف، وسيعتمد توقيت ذلك على ضمان تلبية الميزة لمعايير الأمان والموثوقية العالية.
تعتبر إضافة قدرات المحادثة الطبيعية إلى ChatGPT قفزة كبيرة إلى الأمام. يسهل هذا التقدم الحاجة إلى نافذة السياق، مما يقلل من متطلبات الأجهزة ويوسع الإمكانيات المحتملة للذكاء الاصطناعي، خاصة للمستخدمين ذوي التحديات الحركية أو البصرية. علاوة على ذلك، من خلال تبسيط التفاعلات، تمهد هذه الميزة الطريق لقبول أوسع لتقنية الذكاء الاصطناعي بين المستخدمين الذين قد يكونون مألوفين مع الأوامر الصوتية مثل "يا Siri" لكن يجدون هندسة الأوامر النصية متعبة.