OpenAI расширяет свои возможности за пределами генерации текста, изображений и видео, представив значительное новшество в технологии аудио: клонирование голоса. Сегодня компания анонсировала свою новую модель ИИ, «Voice Engine». Эта модель, разработка которой началась в 2022 году, обеспечивает работу API преобразования текста в речь OpenAI, а также новых функций ChatGPT Voice и Read Aloud, представленных ранее в этом месяце.
Как работает клонирование голоса
Voice Engine способен создавать реалистичные голосовые клоны: для этого человеку необходимо записать 15-секундный аудиофайл через микрофон телефона или компьютера. ИИ затем генерирует естественно звучащую речь, которая близка по звучанию к оригиналу, позволяя пользователям превращать любой печатный текст в spoken words.
Серьезные последствия для рынка устного аудио
Эта технология имеет огромный потенциал для людей, часто выступающих публично, включая подкастеров, артистов озвучивания, дикторов аудиокниг, геймеров и работников службы поддержки. Кроме того, она создает конкуренцию таким компаниям, как ElevenLabs, Captions, Meta, WellSaid Labs и MyShell.
OpenAI также подчеркивает возможность использования Voice Engine для помощи не говорящим людям, предоставляя уникальные, не роботизированные голоса, что может быть полезно в терапевтических и образовательных целях для тех, кто имеет нарушения речи или обучающиеся трудности.
Первоначальные случаи использования
В своем заявлении OpenAI отметила, что Voice Engine в настоящее время доступен ограниченному числу доверенных партнеров, включая:
- Age of Learning: Использует Voice Engine и GPT-4 для создания персонализированного голосового контента для различных аудиторий студентов.
- HeyGen: Применяет технологию для перевода видео, создавая пользовательские аватары с реалистичными многоязычными голосами для улучшения глобальной коммуникации.
- Dimagi: Интегрирует Voice Engine для предоставления интерактивной многоязычной обратной связи для работников здравоохранения, повышая качество услуг в удаленных районах.
- Livox: Расширяет свое приложение AAC с помощью Voice Engine, предоставляя уникальные голоса для людей с нарушениями речи и слуха.
- Институт нейронаук Нормана Принса: Использует технологию для помощи пациентам с нарушениями речи, в частности, для восстановления голоса пациента с опухолью мозга на основе ранее записанного аудио.
OpenAI предоставила аудиофрагменты, демонстрирующие способности технологии, включая сравнение оригинального голоса пациента и клонированной версии с использованием Voice Engine.
Ограниченный доступ и осторожное внедрение
Пока что Voice Engine недоступен для широкой публики. OpenAI делится выводами и результатами ограниченного предварительного тестирования исключительно с доверенными партнерами. Компания заявила: «Мы принимаем осторожный и обоснованный подход к более широкой публикации из-за потенциального злоупотребления синтетическими голосами». OpenAI стремится инициировать обсуждения об ответственном использовании синтетических голосов и оценить, как общество может адаптироваться к этим новшествам.
Подход OpenAI к выпуску Voice Engine соответствует недавним призывам к регулированию имитации голосов ИИ. Для обеспечения этичного использования партнерам, тестирующим технологию, необходимо придерживаться строгих правил, запрещающих несанкционированное подражание и требующих получения информированного согласия от доноров голосов. Кроме того, OpenAI внедряет меры безопасности, включая водяные знаки и проактивный мониторинг, для содействия ответственному использованию технологий.