Meta запускает Audiobox: искусственный интеллект, который клонирует голоса и создает атмосферные звуковые пейзажи.

Клонирование голоса: будущее генерации аудио с помощью ИИ

Клонирование голоса – это быстро развивающаяся область генеративного ИИ, занимающаяся воспроизведением вокальных характеристик человека, таких как высота, тембр, ритм, манера речи и уникальные произношения с использованием современных технологий. Стартапы, такие как ElevenLabs, привлекли значительное финансирование для этой цели, в то время как Meta Platforms, материнская компания Facebook, Instagram, WhatsApp и Oculus VR, представила собственный инструмент для клонирования голоса под названием Audiobox, хотя и с некоторыми ограничениями.

Представляем Audiobox

Audiobox, разработанный исследователями лаборатории Facebook AI Research (FAIR), описывается как "основная исследовательская модель для генерации аудио", основанная на предыдущих разработках с Voicebox. На странице Audiobox говорится: "Он может генерировать голоса и звуковые эффекты, используя комбинацию голосовых вводов и текстовых подсказок, что упрощает создание пользовательского аудио для различных задач." Пользователи могут просто ввести предложение для клонированного голоса или описать желаемый звук. Кроме того, они могут записать собственный голос, чтобы он был клонирован Audiobox.

Семейство моделей для генерации аудио

Meta разработала "семейство моделей", включая одну для имитации речи и другую для создания фоновых звуков, таких как лай собак или сирены, все они основаны на общей модели самоподдерживаемого обучения (SSL) — Audiobox SSL.

Самоподдерживаемое обучение — это техника глубинного обучения, при которой ИИ-алгоритмы создают собственные метки для неразмеченных данных, в отличие от контролируемого обучения, которое полагается на заранее размеченные данные. В исследовательской работе подчеркивается, что "размеченные данные не всегда доступны или качественны; поэтому наша стратегия заключается в обучении на аудио без или с минимальным контролем, таком как транскрипция или субтитры."

Ведущие модели генеративного ИИ, включая Audiobox, часто зависят от данных, созданных человеком, для обучения. В этом случае исследователи FAIR использовали "160 тысяч часов речи (в основном на английском), 20 тысяч часов музыки и 6 тысяч часов звуковых образцов." Данные речи включают аудиокниги, подкасты, разговоры и записи в различных акустических средах, включая говорящих из более чем 150 стран и на более чем 200 основных языках.

Хотя в исследовательской работе не уточняются источники этих данных, поднимается важный вопрос: создатели контента и праводержатели выразили озабоченность по поводу использования компаниями ИИ материалов, защищенных авторским правом, без надлежащего согласия. Meta заявила в электронном письме, что "Audiobox обучался на публично доступных и лицензированных наборах данных", но не раскрыла конкретные источники.

Попробуйте Audiobox сами

Meta предлагает интерактивные демонстрации, показывающие возможности Audiobox, позволяя пользователям записывать свой голос, генерировать клонированный голос и затем вводить текст для его озвучивания. На мой опыт, полученное аудио было удивительно похоже на мой собственный голос — это подтвердили члены семьи, которые слышали его, не зная его источника.

Пользователи также могут создавать совершенно новые голоса на основе текстовых описаний, таких как "глубокий женский голос" или "высокий мужской голос, говорящий из США," а также генерировать разные звуки, например, лай собак. Я протестировал эту функцию с "лаем собак" и получил два убедительных результата.

Однако есть значительное ограничение: в уведомлении говорится, что "это демонстрационная версия для исследований и не может использоваться в коммерческих целях." Более того, доступ к ней ограничен для пользователей из Иллинойс и Техаса из-за законов штата, касающихся сбора аудио.

Будущее Audiobox и генерации аудио с помощью ИИ

В отличие от недавно представленного инструмента генерации изображений Imagine by Meta AI, Audiobox не является открытым исходным кодом, что противоречит ранее установленной политике Meta в отношении открытости, как это было с семейством моделей Llama 2. Представитель Meta сообщил, что они планируют пригласить исследователей и учебные заведения подавать заявки на гранты, направленные на исследование безопасности и ответственности в отношении Audiobox.

На данный момент Audiobox нельзя использовать в коммерческих целях, и он недоступен для жителей двух самых населенных штатов США. Тем не менее, с учетом быстрого развития технологий ИИ, можно ожидать появления коммерческих версий — независимо от того, будут ли они разработаны Meta или другими разработчиками.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles