مؤخراً، أعلنت OpenAI عن تحديث مهم: النسخة الأولى (Alpha) من وضع الصوت GPT-4o متاحة الآن لمجموعة مختارة من مشتركين ChatGPT Plus، مع خطط لإطلاق أوسع في هذا الخريف. يمثل هذا التطور تقدمًا ملحوظًا في دمج تقنيات معالجة اللغة الطبيعية والتفاعل الصوتي.
يُعتبر GPT-4o نموذج OpenAI الموحد الأحدث، القادر على معالجة المدخلات النصية، البصرية، والصوتية عبر نفس الشبكة العصبية، مما يتيح اتصالاً سلسًا. لاenhances فقط هذا القدر من القدرة الأداء العام للنموذج بل يوفر أيضًا تجربة محادثة أكثر طبيعية وفورية للمستخدمين.
أوضحت ميرا مراتي، المديرة التقنية لشركة OpenAI، أن GPT-4o يمثل أول محاولة شاملة للجمع بين الأنماط النصية، البصرية، والصوتية. وعلى الرغم من أن النموذج لا يزال في مراحل الاستكشاف المبكر للوظائف وتقييم الحدود، إلا أن الفريق متفائل بشأن إمكاناته ويعمل بجد على تحسيناته.
كان من المقرر في الأصل اختبار وضع الصوت GPT-4o في نهاية يونيو، لكن تم تأجيل التجربة لتحسين النموذج. وقد أشارت OpenAI إلى أنها تعزز قدرة النموذج على اكتشاف ورفض المحتوى غير المناسب لضمان تجربة مستخدم آمنة وإيجابية. وبفضل هذه الجهود، تم إطلاق وضع الصوت GPT-4o قبل الموعد المحدد، مما يدل على توفره لجمهور أوسع.
عند المقارنة مع GPT-3.5 وGPT-4، يتفوق GPT-4o في التواصل الصوتي. تكشف البيانات أن متوسط وقت الاستجابة الصوتية لـ GPT-3.5 كان 2.8 ثانية، بينما تمددت هذه الفترة لـ GPT-4 إلى 5.4 ثانية، مما أثر سلباً على سلاسة المحادثة. ومع ذلك، بفضل التحسينات الفنية، تمكن GPT-4o من تقليل هذه الفترة بشكل كبير، محققًا تجربة محادثة شبه سلسة. كما يتميز باستجابة سريعة ونبرة واقعية للغاية، مع القدرة على إدراك وتقليد المشاعر مثل الحزن والفرح، مما يعزز حيوية الحوار.
بينما تروج OpenAI لوضع الصوت GPT-4o، تؤكد على التزامها بخصوصية وأمان المستخدمين. ذكرت المتحدثة باسم الشركة، ليندسي مكالوم، أن ChatGPT لن يتقمص صوت أي فرد أو شخصية عامة، وأن الناتج الذي لا يتطابق مع الأصوات المحددة مسبقًا محدود بشكل صارم لحماية حقوق وخصوصية المستخدمين.
مع تقديم وضع الصوت GPT-4o، تهدف OpenAI إلى الاستمرار في ريادة الابتكار في تكنولوجيا الذكاء الاصطناعي، مقدمة تجارب تفاعلية صوتية أكثر ذكاءً وراحةً وأمانًا.