Meta запускает Audiobox: искусственный интеллект, который клонирует голоса и создает атмосферные звуковые пейзажи.

Home Новости ИИ Meta запускает Audiobox: искусственный интеллект, который клонирует голоса и создает атмосферные звуковые пейзажи.

Updated on декабрь 11 2023

Клонирование голоса: будущее генерации аудио с помощью ИИ

Клонирование голоса – это быстро развивающаяся область генеративного ИИ, занимающаяся воспроизведением вокальных характеристик человека, таких как высота, тембр, ритм, манера речи и уникальные произношения с использованием современных технологий. Стартапы, такие как ElevenLabs, привлекли значительное финансирование для этой цели, в то время как Meta Platforms, материнская компания Facebook, Instagram, WhatsApp и Oculus VR, представила собственный инструмент для клонирования голоса под названием Audiobox, хотя и с некоторыми ограничениями.

Представляем Audiobox

Audiobox, разработанный исследователями лаборатории Facebook AI Research (FAIR), описывается как "основная исследовательская модель для генерации аудио", основанная на предыдущих разработках с Voicebox. На странице Audiobox говорится: "Он может генерировать голоса и звуковые эффекты, используя комбинацию голосовых вводов и текстовых подсказок, что упрощает создание пользовательского аудио для различных задач." Пользователи могут просто ввести предложение для клонированного голоса или описать желаемый звук. Кроме того, они могут записать собственный голос, чтобы он был клонирован Audiobox.

Семейство моделей для генерации аудио

Meta разработала "семейство моделей", включая одну для имитации речи и другую для создания фоновых звуков, таких как лай собак или сирены, все они основаны на общей модели самоподдерживаемого обучения (SSL) — Audiobox SSL.

Самоподдерживаемое обучение — это техника глубинного обучения, при которой ИИ-алгоритмы создают собственные метки для неразмеченных данных, в отличие от контролируемого обучения, которое полагается на заранее размеченные данные. В исследовательской работе подчеркивается, что "размеченные данные не всегда доступны или качественны; поэтому наша стратегия заключается в обучении на аудио без или с минимальным контролем, таком как транскрипция или субтитры."

Ведущие модели генеративного ИИ, включая Audiobox, часто зависят от данных, созданных человеком, для обучения. В этом случае исследователи FAIR использовали "160 тысяч часов речи (в основном на английском), 20 тысяч часов музыки и 6 тысяч часов звуковых образцов." Данные речи включают аудиокниги, подкасты, разговоры и записи в различных акустических средах, включая говорящих из более чем 150 стран и на более чем 200 основных языках.

Хотя в исследовательской работе не уточняются источники этих данных, поднимается важный вопрос: создатели контента и праводержатели выразили озабоченность по поводу использования компаниями ИИ материалов, защищенных авторским правом, без надлежащего согласия. Meta заявила в электронном письме, что "Audiobox обучался на публично доступных и лицензированных наборах данных", но не раскрыла конкретные источники.

Попробуйте Audiobox сами

Meta предлагает интерактивные демонстрации, показывающие возможности Audiobox, позволяя пользователям записывать свой голос, генерировать клонированный голос и затем вводить текст для его озвучивания. На мой опыт, полученное аудио было удивительно похоже на мой собственный голос — это подтвердили члены семьи, которые слышали его, не зная его источника.

Пользователи также могут создавать совершенно новые голоса на основе текстовых описаний, таких как "глубокий женский голос" или "высокий мужской голос, говорящий из США," а также генерировать разные звуки, например, лай собак. Я протестировал эту функцию с "лаем собак" и получил два убедительных результата.

Однако есть значительное ограничение: в уведомлении говорится, что "это демонстрационная версия для исследований и не может использоваться в коммерческих целях." Более того, доступ к ней ограничен для пользователей из Иллинойс и Техаса из-за законов штата, касающихся сбора аудио.

Будущее Audiobox и генерации аудио с помощью ИИ

В отличие от недавно представленного инструмента генерации изображений Imagine by Meta AI, Audiobox не является открытым исходным кодом, что противоречит ранее установленной политике Meta в отношении открытости, как это было с семейством моделей Llama 2. Представитель Meta сообщил, что они планируют пригласить исследователей и учебные заведения подавать заявки на гранты, направленные на исследование безопасности и ответственности в отношении Audiobox.

На данный момент Audiobox нельзя использовать в коммерческих целях, и он недоступен для жителей двух самых населенных штатов США. Тем не менее, с учетом быстрого развития технологий ИИ, можно ожидать появления коммерческих версий — независимо от того, будут ли они разработаны Meta или другими разработчиками.

Улучшение управления идентификацией с помощью ИИ: Как Copilot от ConductorOne трансформирует управление безопасностью

Anthropic запускает инициативу против предвзятости и дискриминации в ИИ с помощью прорывных исследований.

Most people like

Paraphrasing Tool AI

172.7K

Инструмент для написания на базе ИИ позволяет пользователям перефразировать и улучшать свои тексты, эффективно предотвращая плагиат и повышая оригинальность.

Инструмент парафразирования Paraphraser

Mailchimp

12.8M

Увеличьте конверсию клиентов с помощью мощной платформы маркетинга и автоматизации Mailchimp. Оптимизируйте свои усилия и эффективно взаимодействуйте с аудиторией, чтобы увеличивать продажи и развивать свой бизнес.

Email-маркетинг AI Email Marketing

YouCam AI & AR Business Solutions

5.4M

Откройте для себя трансформирующую силу решений ИИ и AR в индустриях красоты, моды и ухода за кожей. С развитием технологий эти инновационные инструменты меняют способы взаимодействия брендов с потребителями, улучшая их опыт и персонализируя предложения. Узнайте, как искусственный интеллект и дополненная реальность революционизируют поиск продуктов, виртуальные примерки и индивидуальные рекомендации, создавая более захватывающий и удобный процесс покупок. Будьте на шаг впереди в конкурентной среде и раскройте потенциал ИИ и AR для роста и успеха вашего бренда.

AR-технологии в области красоты Life Assistant

JibJab

5.7K

В современном быстром цифровом мире персонализированные развлекательные платформы кардинально изменили подход к потреблению контента. Эти индивидуально настроенные сервисы создают уникальные впечатления, основываясь на ваших предпочтениях, обеспечивая тем самым каждому пользователю персонализированное зрительское путешествие. С помощью продвинутых алгоритмов и обширного выбора опций эти платформы не только экономят ваше время, но и улучшают общий опыт развлечений, связывая вас с шоу и фильмами, которые вам понравятся. Присоединяйтесь к нам, чтобы исследовать преимущества и особенности этих инновационных развлекательных решений.

Персонализированные AI-фото AI GIF Generator

Find AI tools in YBX