Открывая будущее: MyShell запускает OpenVoice — новую модель клонирования голоса на основе открытого кода.

Home Новости ИИ Открывая будущее: MyShell запускает OpenVoice — новую модель клонирования голоса на основе открытого кода.

Updated on октябрь 30 2024

Стартапы, такие как ElevenLabs, вложили миллионы в разработку собственных алгоритмов и программного обеспечения на основе ИИ для клонирования голосов, создавая аудиопрограммы, которые повторяют голоса пользователей. Теперь исследователи из Массачусетского технологического института (MIT), Университета Циньхуа в Пекине и команда стартапа MyShell представляют OpenVoice — решение для клонирования голосов с открытым исходным кодом, которое обеспечивает практически мгновенные результаты и предоставляет гранулярные настройки, отсутствующие на других платформах.

"MyShell позволяет клонировать голоса с непревзойденной точностью, настраивая тон, эмоции, акцент, ритм, паузы и интонацию всего по небольшому аудиофрагменту", — отмечает MyShell в своем недавнем посте на X. Компания поделилась ссылкой на свой исследовательский документ, описывающий разработку OpenVoice, а также предоставила пользователям доступ к нему через веб-приложение MyShell (требует учетной записи) и HuggingFace (открытый доступ без учетной записи).

В письме главный исследователь Цзэньи Цин из MIT и MyShell подчеркнул цель проекта: "MyShell нацелен на поддержку исследовательского сообщества. OpenVoice — это лишь начало. В будущем мы будем предоставлять гранты, наборы данных и вычислительную мощность для поддержки открытых исследований. Наша основная миссия — 'ИИ для всех'."

Что касается мотивации для создания OpenVoice, Цин объяснил: "Язык, зрение и голос — это три ключевых модальности для будущего Искусственного Общего Интеллекта (AGI). Хотя для языка и зрения существуют различные модели с открытым исходным кодом, мощная и мгновенная модель клонирования голосов для настройки отсутствовала, поэтому мы предприняли этот проект."

Используя OpenVoice

В неофициальных тестах на HuggingFace я быстро сгенерировал убедительную — хоть и несколько роботизированную — копию своего голоса, используя случайную речь. В отличие от других приложений для клонирования голосов, OpenVoice позволил мне говорить свободно, не следуя конкретному сценарию. Через считанные секунды у меня уже был клон голоса, который точно прочитал мой текстовый ввод.

Кроме того, я мог настраивать "стиль" клона среди различных эмоциональных предустановок, таких как радостный, грустный или сердитый, эффективно изменяя тон. Вот образец моего голоса, созданного с помощью OpenVoice на "дружелюбном" тоне.

Как был создан OpenVoice

Создатели OpenVoice — Цин, Вэнлян Чжао и Сюмин Ю из Университета Циньхуа, а также Синь Сун из MyShell — описали свой метод в исследовательском документе. OpenVoice состоит из двух ключевых AI моделей: модели преобразования текста в речь (TTS) и преобразователя тона.

Модель TTS управляет параметрами стиля и языками, обученная на 30,000 предложениях от двух английских говорящих (с американским и британским акцентами), одного китайского и одного японского говорящего, каждое из которых помечено определенными эмоциями. Она изучила нюансы, такие как интонация, ритм и паузы.

Преобразователь тона был обучен на более чем 300,000 аудиосэмплов от более чем 20,000 спикеров. Аудио, полученное из устной речи, преобразуется в фонемы — отдельные звуки, различающие слова, — и представляет собой векторные эмбеддинги. Используя "базового говорящего" для модели TTS в сочетании с информацией о тоне от ввода пользователя, эти модели могут воспроизводить голос пользователя и адаптировать его эмоциональное выражение. Диаграмма в исследовании OpenVoice иллюстрирует, как эти модели интегрируются.

Несмотря на концептуальную простоту, этот метод эффективен и требует значительно меньше вычислительных ресурсов, чем конкуренты, такие как Voicebox от Meta. Цин поделился: "Мы стремились разработать наиболее гибкую модель мгновенного клонирования голосов. Эта гибкость означает контроль над стилями, эмоциями, акцентами и адаптацию к любому языку. Ранее такая комплексная функциональность была недоступна из-за своей сложности. Через разъединенный конвейерный процесс мы достигли эффективных результатов с простотой."

О проекте OpenVoice

MyShell, основанный в 2023 году с посевным финансированием в размере 5.6 миллиона долларов от INCE Capital и при участии Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC и OP Crypto, уже привлек более 400,000 пользователей, как сообщает The SaaS News. Во время исследования я наблюдал более 61,000 пользователей на их сервере Discord.

MyShell описывает себя как "децентрализованную и всеобъемлющую платформу для открытия, создания и стейкинга приложений на базе ИИ". Помимо OpenVoice, их веб-приложение предлагает различные текстовые AI- персонажи и боты с уникальными личностями, подобно Character.AI, и включает инструменты, такие как генератор анимационных GIF и созданные пользователями RPG на основе популярных франшиз.

Что касается монетизации, MyShell взимает месячную подписку с пользователей веб-приложения и с создателей сторонних ботов, желающих продвигать свои продукты в приложении. Они также взимают плату за данные для обучения ИИ.

Трансформация Банковского Сектора: Улучшение Цифровых Путей Клиентов За Пределами Простых Транзакций

Отчет Верховного суда в конце года исследует будущее ИИ в судебной системе.

Most people like

Manga Translator

87.4K

Вы энтузиаст манги, стремящийся читать истории, которые еще не переведены на ваш язык? Представляем вам Расширение AI Manga Translation — современное решение, созданное для преодоления языковых барьеров и улучшения вашего чтения. С мощными возможностями искусственного интеллекта это расширение переводит панели манги в реальном времени, позволяя вам погрузиться в мир фантазии и приключений без ожидания официальных переводов. Попрощайтесь с языковыми ограничениями и легко открывайте новые названия с нашим удобным инструментом, разработанным как для случайных читателей, так и для преданных фанатов. Погружайтесь в яркую вселенную манги сегодня, где каждая панель оживает на вашем языке!

переводчик манги Translate

Thunderbit

33.4K

Революционизируйте свой рабочий процесс с нашей платформой ИИ, специально разработанной для автоматизации веб-заданий с помощью настраиваемых шаблонов. Упростите свои процессы и увеличьте продуктивность, используя интеллектуальную автоматизацию, адаптированную под ваши нужды. Узнайте, как наши удобные шаблоны могут оптимизировать рутинные задачи, позволяя вам сосредоточиться на том, что действительно важно.

Автоматизация ИИ Summarizer

Rozetta

101.5K

Разблокировка потенциала AI решений для перевода под ваши разнообразные бизнес-потребности В современном взаимосвязанном мире эффективная коммуникация играет ключевую роль в успехе бизнеса. Решения для перевода на основе ИИ трансформируют работу компаний, устраняя языковые барьеры и обеспечивая беспрепятственное взаимодействие между культурами. Независимо от того, расширяет ли ваша компания присутствие на новых рынках, сотрудничает с международными партнерами или предоставляет поддержку глобальной клиентской базе, использование передовых технологий перевода может улучшить ваши операции и способствовать росту. Узнайте, как эти инновационные решения могут удовлетворить ваши уникальные бизнес-требования и поднять вашу стратегию коммуникации на новый уровень.

AI Перевод Translate

ChartAI

14.7K

ChartAI использует возможности ChatGPT, чтобы помочь пользователям легко создавать и интерпретировать графики и диаграммы. Благодаря интуитивному интерфейсу, ChartAI преобразует сложные данные в визуально привлекательные и понятные представления, улучшая ваш опыт анализа данных.

Диаграммы AI Charting

Find AI tools in YBX