Революционная технология Typecast позволяет генеративному ИИ передавать человеческие эмоции.

Язык играет ключевую роль в человеческом взаимодействии, а эмоции, стоящие за ним, еще важнее. Выражение таких эмоций, как счастье, печаль, гнев и разочарование, дополняет наши сообщения и углубляет связи между людьми.

Хотя генеративный ИИ достиг значительного прогресса в различных областях, ему часто не хватает понимания нюансов человеческих эмоций. Стартап Typecast стремится изменить это с помощью новой технологии Transfer эмоций между спикерами. Эта функция позволяет пользователям добавлять эмоции, захваченные из другого голоса, в свои собственные записи, сохраняя уникальный вокальный стиль. Это нововведение упрощает создание контента и доступно через My Voice Maker от Typecast.

«ИИ-актеры еще не в состоянии полностью передать эмоциональный диапазон человека, что является их главным ограничивающим фактором», — утверждает Тaesu Ким, CEO и сооснователь Neosapience и Typecast. С помощью Transfer эмоций между спикерами Typecast, «любой может использовать ИИ-актеров с глубиной эмоций всего из небольшого образца голоса».

Декодирование эмоций

Человеческие эмоции обычно относятся к семи категориям: счастье, печаль, гнев, страх, удивление и отвращение, основанным на универсальных мимических выражениях. Однако эти категории не полностью передают весь спектр эмоций, возникающих в сгенерированной речи.

Речь не является прямым преобразованием текста в звуки. «Люди могут произносить одно и то же предложение бесчисленными способами,» — объясняет Ким в эксклюзивном интервью. Разные эмоции могут проявляться даже в одном и том же слове. Например, вопрос «Как ты можешь так со мной поступить?» можно задать с разными оттенками: от разочарования до гнева. Даже сложные эмоции, такие как «Так грустно, потому что ее отец умер, но на лице у нее улыбка», трудно однозначно классифицировать.

Исследователи, включая Кима, подчеркивают, что способность передавать различные эмоции создает более насыщенные беседы.

Ограничения технологий синтеза речи с эмоциями

Технологии преобразования текста в речь стремительно развивались, особенно через такие модели, как ChatGPT, LaMDA, LLama и Bard. Тем не менее, достижение эмоционального текста в речи по-прежнему остается сложной задачей, часто требующей значительного объема размеченных данных, которые трудно получить. Запись нюансов различных эмоций традиционно занимает много времени.

«Записать длинные предложения с последовательным сохранением эмоций крайне сложно», — замечает Ким. В традиционном синтезе эмоциональной речи каждое обучающее значение должно иметь метку эмоции, что часто требует дополнительного кодирования или референтного аудио. Это становится проблематичным, когда недостаточно данных для каждой эмоции или спикера, что приводит к неверной маркировке и сложностям в захвате эмоциональной интенсивности.

Transfer эмоций между спикерами создает дополнительные трудности, особенно при назначении невидимых эмоций разным исполнителям. Современные технологии часто дают неестественные результаты, когда нейтральные спикеры пытаются передать эмоциональную речь.

Инновации с использованием глубоких нейронных сетей и неконтролируемого обучения

Для решения этих проблем исследователи интегрировали метки эмоций в генеративную глубокую нейронную сеть — это прорывной подход. Однако этого было недостаточно для выражения сложных эмоций и стилей речи.

Затем был разработан алгоритм неконтролируемого обучения для выявления стилей речи и эмоций из огромной базы данных. Обучение проходило без меток эмоций, что позволило модели извлекать полезные представления из речевых данных. Хотя эти представления могут быть не интерпретируемы человеком, они могут информировать алгоритмы преобразования текста в речь в передаче эмоций.

Дальнейшие усовершенствования включали обучение нейронной сети восприятия для преобразования естественных описаний эмоций в пригодные для использования представления.

«С этой технологией пользователям больше не нужно записывать сотни различных стилей речи или эмоций; система учится на широкой базе эмоциональных голосов», — утверждает Ким.

Легкость адаптации голосовых характеристик

Исследователям удалось достичь «трансферного и контролируемого синтеза эмоциональной речи», используя скрытые представления. Методики, такие как обучение с противостоянием домена и потеря циклической консистентности, позволяют отделять характеристики спикера от стиля речи.

Анализируя широкий спектр записанных человеческих голосов, система изучает эмоциональные паттерны, тона и интонации. Метод эффективно передает эмоции нейтральному спикеру, используя лишь несколько размеченных образцов, с возможностью контролировать интенсивность эмоции с помощью интуитивных скалярных значений.

Это нововведение позволяет пользователям записывать короткие фрагменты голоса, применяя различные эмоции, не изменяя свою уникальную голосовую идентичность. Записав всего пять минут речи, они могут выразить такие эмоции, как счастье, печаль и гнев, даже говоря в обычном тоне.

Технология Typecast уже была внедрена такими известными компаниями, как Samsung Securities и LG Electronics, а стартап привлек 26,8 миллиона долларов с момента своего основания в 2017 году. В настоящее время Typecast исследует применение своих технологий синтеза речи для выражения эмоций лицом.

Важность контролируемости в генеративном ИИ

На фоне быстро развивающегося медиа-ландшафта, как отмечает Ким, популярность текстовых блогов сместилась в сторону видеоконтента короткой формы, побуждая людей и компании производить больше аудио- и видеоконтента, чем когда-либо прежде.

«Высококачественный выразительный голос важен для передачи корпоративных сообщений», — подчеркивает Ким.

Эффективность производства имеет решающее значение, так как ручная работа человеческих актеров зачастую оказывается слишком медленной.

«Контролируемость в генеративном ИИ критически важна для создания контента. Эти технологии позволяют отдельным пользователям и компаниям раскрывать свой творческий потенциал, одновременно повышая продуктивность».

Most people like

Find AI tools in YBX