OpenAI запускает долгожданный "Режим продвинутого голосового общения ChatGPT" — интерфейс для диалога с голосом, схожим с человеческим. Доступ к новой функции будет предоставлен всем платным подписчикам планов ChatGPT Plus и Team, начиная с ближайших дней в США. Подписчики планов Edu и Enterprise смогут использовать ее на следующей неделе.
Помимо голосового интерфейса, OpenAI представляет возможность сохранять "пользовательские инструкции" и "память" для персонализированных взаимодействий, что повторяет функции, ранее выпущенные для текстового варианта ChatGPT. Пользователи насладятся пятью новыми голосовыми стилями — Arbor, Maple, Sol, Spruce и Vale — в дополнение к уже существующим: Breeze, Juniper, Cove и Ember.
Это обновление позволяет пользователям ChatGPT взаимодействовать с чат-ботом голосом, исключая необходимость печатать текст. Оповещение сообщит, когда пользователь входит в режим Продвинутого голосового ассистента в приложении. OpenAI вложила время в совершенствование акцентов для популярных иностранных языков и улучшение текучести общения с момента альфа-версии. Пользователи также заметят обновленный режим с анимированной синей сферой.
Эти обновления эксклюзивны для модели GPT-4o, в то время как новая предварительная модель o1 остается за рамками этого выпуска. Возможности пользовательских инструкций и памяти еще больше индивидуализируют взаимодействие с пользователями во время голосового чата.
С учетом роста популярности голосовых помощников, таких как Siri от Apple и Alexa от Amazon, разработчики стремятся создать более человечные разговорные опыты. ChatGPT уже встроил голосовые функции с помощью функции "Чтение вслух"; однако, Режим продвинутого голоса нацелен на более увлекательное и аутентичное взаимодействие.
Среди конкурентов Hume AI недавно представила свой Эмпатический голосовой интерфейс, который распознает эмоции по голосовым паттернам, а Kyutai запустила своего открыто-source голосового помощника Moshi. Google добавил новые голоса в свой чат-бот Gemini, в то время как Meta разрабатывает голоса, подражающие популярным актерам для своей AI-платформы. OpenAI утверждает, что делает технологии голосового AI более доступными, чем конкуренты.
Несмотря на восторг, интеграция голосовых AI не обошлась без споров. Появились опасения по поводу сходства одного из голосов ChatGPT, Sky, с голосом актрисы Скарлетт Йоханссон, особенно после того, как CEO Сэм Алтман упомянул "ее", что напомнило о роли Йоханссон в фильме как AI-помощника. OpenAI подчеркивает, что не намеревается воспроизводить голоса известных личностей и обещает, что пользователи получат доступ только к девяти уникальным голосам от OpenAI.
Запуск был изначально отложен с запланированного конца июня на "конец июля или начало августа", частично из-за обязательств по тестированию безопасности. OpenAI провела обширные оценки с участием внешних экспертов, владеющих 45 языками в 29 регионах. Решение об расширении доступа сейчас говорит о том, что OpenAI уверена в реализованных мерах безопасности, продолжая осторожный подход, взаимодействуя с правительствами США и Великобритании и предоставляя предварительные версии новых моделей до их выпуска.