Стартапы, такие как ElevenLabs, вложили миллионы в разработку собственных алгоритмов и программного обеспечения на основе ИИ для клонирования голосов, создавая аудиопрограммы, которые повторяют голоса пользователей. Теперь исследователи из Массачусетского технологического института (MIT), Университета Циньхуа в Пекине и команда стартапа MyShell представляют OpenVoice — решение для клонирования голосов с открытым исходным кодом, которое обеспечивает практически мгновенные результаты и предоставляет гранулярные настройки, отсутствующие на других платформах.
"MyShell позволяет клонировать голоса с непревзойденной точностью, настраивая тон, эмоции, акцент, ритм, паузы и интонацию всего по небольшому аудиофрагменту", — отмечает MyShell в своем недавнем посте на X. Компания поделилась ссылкой на свой исследовательский документ, описывающий разработку OpenVoice, а также предоставила пользователям доступ к нему через веб-приложение MyShell (требует учетной записи) и HuggingFace (открытый доступ без учетной записи).
В письме главный исследователь Цзэньи Цин из MIT и MyShell подчеркнул цель проекта: "MyShell нацелен на поддержку исследовательского сообщества. OpenVoice — это лишь начало. В будущем мы будем предоставлять гранты, наборы данных и вычислительную мощность для поддержки открытых исследований. Наша основная миссия — 'ИИ для всех'."
Что касается мотивации для создания OpenVoice, Цин объяснил: "Язык, зрение и голос — это три ключевых модальности для будущего Искусственного Общего Интеллекта (AGI). Хотя для языка и зрения существуют различные модели с открытым исходным кодом, мощная и мгновенная модель клонирования голосов для настройки отсутствовала, поэтому мы предприняли этот проект."
Используя OpenVoice
В неофициальных тестах на HuggingFace я быстро сгенерировал убедительную — хоть и несколько роботизированную — копию своего голоса, используя случайную речь. В отличие от других приложений для клонирования голосов, OpenVoice позволил мне говорить свободно, не следуя конкретному сценарию. Через считанные секунды у меня уже был клон голоса, который точно прочитал мой текстовый ввод.
Кроме того, я мог настраивать "стиль" клона среди различных эмоциональных предустановок, таких как радостный, грустный или сердитый, эффективно изменяя тон. Вот образец моего голоса, созданного с помощью OpenVoice на "дружелюбном" тоне.
Как был создан OpenVoice
Создатели OpenVoice — Цин, Вэнлян Чжао и Сюмин Ю из Университета Циньхуа, а также Синь Сун из MyShell — описали свой метод в исследовательском документе. OpenVoice состоит из двух ключевых AI моделей: модели преобразования текста в речь (TTS) и преобразователя тона.
Модель TTS управляет параметрами стиля и языками, обученная на 30,000 предложениях от двух английских говорящих (с американским и британским акцентами), одного китайского и одного японского говорящего, каждое из которых помечено определенными эмоциями. Она изучила нюансы, такие как интонация, ритм и паузы.
Преобразователь тона был обучен на более чем 300,000 аудиосэмплов от более чем 20,000 спикеров. Аудио, полученное из устной речи, преобразуется в фонемы — отдельные звуки, различающие слова, — и представляет собой векторные эмбеддинги. Используя "базового говорящего" для модели TTS в сочетании с информацией о тоне от ввода пользователя, эти модели могут воспроизводить голос пользователя и адаптировать его эмоциональное выражение. Диаграмма в исследовании OpenVoice иллюстрирует, как эти модели интегрируются.
Несмотря на концептуальную простоту, этот метод эффективен и требует значительно меньше вычислительных ресурсов, чем конкуренты, такие как Voicebox от Meta. Цин поделился: "Мы стремились разработать наиболее гибкую модель мгновенного клонирования голосов. Эта гибкость означает контроль над стилями, эмоциями, акцентами и адаптацию к любому языку. Ранее такая комплексная функциональность была недоступна из-за своей сложности. Через разъединенный конвейерный процесс мы достигли эффективных результатов с простотой."
О проекте OpenVoice
MyShell, основанный в 2023 году с посевным финансированием в размере 5.6 миллиона долларов от INCE Capital и при участии Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC и OP Crypto, уже привлек более 400,000 пользователей, как сообщает The SaaS News. Во время исследования я наблюдал более 61,000 пользователей на их сервере Discord.
MyShell описывает себя как "децентрализованную и всеобъемлющую платформу для открытия, создания и стейкинга приложений на базе ИИ". Помимо OpenVoice, их веб-приложение предлагает различные текстовые AI- персонажи и боты с уникальными личностями, подобно Character.AI, и включает инструменты, такие как генератор анимационных GIF и созданные пользователями RPG на основе популярных франшиз.
Что касается монетизации, MyShell взимает месячную подписку с пользователей веб-приложения и с создателей сторонних ботов, желающих продвигать свои продукты в приложении. Они также взимают плату за данные для обучения ИИ.