Недавно OpenAI объявила о значительном обновлении: бета-версия голосового режима GPT-4o теперь доступна выборочно для подписчиков ChatGPT Plus, с планами широкой доступности этой осенью. Это событие знаменует собой важный шаг вперед в интеграции технологий обработки естественного языка и голосового взаимодействия.
GPT-4o — это последний унифицированный модель OpenAI, способная обрабатывать текстовые, визуальные и аудио данные через одну нейронную сеть, что обеспечивает бесшовное взаимодействие. Эта возможность не только улучшает общую производительность модели, но и предоставляет пользователям более естественный и быстрый опыт общения.
Мира Мурати, технический директор OpenAI, пояснила, что GPT-4o является первой целостной попыткой компании объединить текстовые, визуальные и аудио форматы. Хотя модель все еще находится на ранних этапах изучения функциональности и оценки ограничений, команда сохраняет оптимизм относительно её потенциала и активно работает над улучшениями.
Изначально тестирование голосового режима GPT-4o планировалось на конец июня, но было отложено для доработки модели. OpenAI подтвердила, что улучшает способность модели обнаруживать и отклонять неприемлемый контент, обеспечивая безопасный и положительный опыт для пользователей. Благодаря этим усилиям запуск голосового режима GPT-4o состоялся досрочно, что сигнализирует о его доступности для широкой аудитории.
В сравнении с GPT-3.5 и GPT-4, GPT-4o превосходит в голосовом взаимодействии. Данные показывают, что средняя задержка голосового ответа для GPT-3.5 составляла 2.8 секунды, а для GPT-4 — 5.4 секунды, что влияло на плавность общения. Однако благодаря техническим оптимизациям, GPT-4o значительно сократил эту задержку, обеспечивая почти бесшовный опыт общения. Он также характеризуется быстрыми ответами и высоким уровнем реализма в тоне, обладая способностью воспринимать и подражать эмоциям, таким как печаль и радость, что делает диалог более живым.
Продвигая голосовой режим GPT-4o, OpenAI подчеркивает свою приверженность к безопасности и конфиденциальности пользователей. Представитель компании Линдсей МаКалум заявила, что ChatGPT никогда не будет имитировать голос какого-либо человека или публичной фигуры, и выводы, которые не совпадают с установленными голосами, строго ограничены для защиты прав и конфиденциальности пользователей.
С введением голосового режима GPT-4o OpenAI стремится продолжать лидерство в инновациях в области технологий искусственного интеллекта, предлагая более умные, удобные и безопасные голосовые взаимодействия.