OpenAI недавно объявила в X (ранее Twitter), что ее долгожданная функция Advanced Voice для ChatGPT начнет внедряться "на следующей неделе", изначально для ограниченной группы подписчиков ChatGPT-Plus. Этот альфа-тест направлен на сбор отзывов пользователей перед расширением функционала на основе их замечаний.
Advanced Voice преодолевает традиционные текстовые подсказки, позволяя вести естественный диалог, как при общении с другим человеком. Эта функция была впервые представлена в мае на мероприятии Spring Update, посвященном запуску GPT-4o, и выделяется среди обычных цифровых помощников, таких как Siri и Google Assistant. В отличие от этих систем, которые часто предлагают подготовленные ответы, Advanced Voice от ChatGPT обеспечивает практически мгновенные, похожие на человеческие реплики на разных языках. Модель GPT-4o демонстрирует среднее время аудиоответа всего 320 миллисекунд, сопоставимое с человеческой скоростью разговора. В демонстрационном видео можно увидеть, как модель взаимодействует с несколькими пользователями, импровизирует обсуждения на английском и португальском языках и выражает человеческие эмоции, включая смех.
Детали о том, как будут выбраны участники для альфа-теста, пока не раскрыты, но им необходимо быть подписчиками ChatGPT Plus за $20 в месяц. Изначально релиз был запланирован на июнь, однако его перенесли, чтобы улучшить возможности модерации контента и укрепить ИТ-инфраструктуру для ожидаемого пользовательского спроса. Как было объявлено в июне, полный запуск функции Advanced Voice не ожидается до осени, и сроки будут зависеть от того, насколько функция соответствуют высоким стандартам безопасности и надежности.
Интеграция возможностей естественного общения в ChatGPT является значительным шагом вперед. Это нововведение снижает необходимость в контекстном окне, облегчая требования к аппаратному обеспечению и расширяя потенциальные применения ИИ—особенно для пользователей с ограниченной мобильностью или ловкостью. Кроме того, благодаря упрощению взаимодействия эта функция открывает двери для более широкого принятия технологий ИИ среди пользователей, которые могут быть знакомы с голосовыми командами, такими как “привет, Siri”, но считают сложным использование текстовых подсказок.