WellSaid Labs, лидер в области технологии голосового искусственного интеллекта (AI), представила инновационный инструмент HINTS (Highly Intuitive Naturally Tailored Speech), который позволяет пользователям управлять голосовыми performances AI с большей естественностью и нюансами. Эта новая функция предоставляет создателям контента возможность настраивать AI-голоса с помощью контекстных аннотаций, таких как регулировка темпа и громкости, аналогично тому, как работает режиссер.
Соучредитель и CTO WellSaid Labs Майкл Петрочук поделился в эксклюзивном интервью: «Наши клиенты выразили желание иметь больший контроль над голосовыми выводами нашего AI. Мы стремились создать систему, которая была бы интуитивной и естественной, позволяя нашей модели предсказывать аутентичные performances в зависимости от контекста пользователя, чтобы творцы могли реализовать свою художественную концепцию».
HINTS представляет собой новое решение, в отличие от традиционных методов, основанных на жестких языках разметки или простых командах для управления AI-голосами. Эта технология позволяет вносить точные, интерполяционные изменения — такие как замедление определенного фрагмента до 0.7x или увеличение громкости на 5 дБ — в то время как голос AI отвечает без сбоев. Его контекстная осведомленность позволяет пользователям накладывать и структурировать аннотации по объемным сценариям.
«Система использует реальные человеческие данные (полученные с согласия) для своих аудиовыводов, что делает аннотированные вербальные выражения столь же реалистичными, как и без аннотаций», — объяснил Петрочук. «Удивительно, но мы обнаружили, что модель эффективно использует единственный набор данных, но также может обобщать performances от нескольких спикеров для улучшения своей просодии. Это открытие превзошло наши ожидания и подчеркивает потенциал для будущих исследований».
HINTS отвечает на потребность в высоко настраиваемых инструментах AI-голоса, ориентированных на режиссеров, что может изменить голосовой контент для аудиокниг, учебных модулей, маркетинговых видео и многого другого. Первые оценки показывают улучшения в точности и естественности.
Исследования также придают приоритет ответственным и этичным практикам AI. «С самого начала мы были привержены этичным инновациям», — отметил Петрочук. WellSaid гарантирует явное согласие от участников голосовой записи, защищает конфиденциальность и модерацию контента для предотвращения злоупотреблений.
С увеличением интеграции голосового AI в потребительские технологии и развлечения HINTS демонстрирует, как эта технология может служить эмпатичным средством повествования, а не просто голосовым инструментом. Хотя по-прежнему существуют ограничения по сравнению с человеческим талантом, такие инновации, как HINTS, приближают нас к созданию по-настоящему выразительных синтетических голосов.