Camb запускает Mars5 — открытую модель ИИ для клонирования голоса, соперничающую с ElevenLabs, с улучшенной реалистичностью и поддержкой 140 языков.

Сегодня дубайский стартап Camb AI, специализирующийся на технологиях локализации контента с использованием ИИ, презентовал Mars5 — продвинутую модель для клонирования голоса. Хотя многие модели, такие как ElevenLabs, способны создавать цифровые голосовые реплики, Camb AI выделяется благодаря непревзойденному реализму Mars5. По предварительным образцам компании, Mars5 не только имитирует оригинальный голос, но и захватывает сложные просодические элементы — ритм, эмоции и интонацию.

Camb AI поддерживает почти в три раза больше языков, чем ElevenLabs, предоставляя более 140 языков, включая менее распространенные, такие как исландский и суахили, в отличие от 36 языков в ElevenLabs. Тем не менее, открытая версия, специфическая для английского языка, доступна на GitHub с сегодняшнего дня, тогда как более широкий языковой спектр можно получить через платнуюStudio Camb.

«Уровень просодии и реализма, который Mars5 достигает всего лишь на основе нескольких секунд ввода, не имеет аналогов. Это знаковый момент в технологии речи», — заявил соучредитель и CTO компании Акшата Пракеш.

Интеграция клонирования голоса и синтеза речи

Традиционно клонирование голоса и синтез речи являются отдельными процессами: клонирование создает синтетический голос из аудиопримеров, в то время как синтез речи использует этот голос для чтения текста. Однако Mars5 объединяет обе возможности в одной платформе. Пользователи просто загружают аудиофайл длиной от нескольких секунд до минуты и предоставляют текст для синтеза. Модель анализирует аудио, чтобы воспроизвести голос, стиль, эмоции и смысл говорящего, превращая текст в естественный звук.

Camb AI утверждает, что Mars5 искусно захватывает широкий спектр эмоциональных тонов, позволяя справляться со сложными речевыми ситуациями, такими как фрустрация, команды, спокойствие или энтузиазм. Эта универсальность делает Mars5 идеальным для традиционно сложного контента, такого как спортивные комментарии, фильмы и аниме.

Для достижения такого уровня просодии Mars5 сочетает авторегрессионную модель примерно на 750 миллионов параметров в стиле Mistral с инновационной неавторегрессионной многомодальной диффузионной моделью на 450 миллионов параметров, используя токены encodec с битрейтом 6kbps. «AR-модель предсказывает основные значения кодовой книги для признаков encodec, в то время как NAR-модель уточняет эти предсказания, восстанавливая оставшиеся записи кодовой книги. Этот подход использует процесс диффузионного разрежения для повышения точности», — уточнил Пракеш.

Сравнение производительности с другими моделями

Хотя конкретные статистические данные по бенчмаркам еще ждут подтверждения, ранние тесты показывают, что Mars5 превосходит популярные модели синтеза речи, включая Metavoice и ElevenLabs, часто производя результаты, которые ближе к оригинальному голосу, чем у конкурентов. «Хотя ElevenLabs тренировалась на значительно большем наборе данных, превышающем 500 тысяч часов, наш дизайн модели захватывает нюансы речи более эффективно. По мере расширения наших наборов данных и дальнейшего обучения Mars5 — с выпуском обновлений на GitHub — мы ожидаем даже более впечатляющих улучшений», — добавил Пракеш.

Camb AI также готовит к выпуску другую модель с открытым исходным кодом под названием Boli, предназначенную для перевода, которая понимает контекст, обеспечивает грамотность и захватывает разговорные нюансы. «Boli превосходит традиционные инструменты перевода, такие как Google Translate, в предоставлении точных, культурно значимых переводов, особенно для языков с низкими и средними ресурсами. Отзывы показывают, что Boli значительно превосходит основные инструменты, включая передовые генеративные модели, такие как ChatGPT», — отметил Пракеш.

В настоящее время как Mars5, так и Boli поддерживают 140 языков на проприетарной платформе Camb Studio, и компания предлагает эти возможности в виде API для предприятий, малых и средних компаний, а также разработчиков. Camb AI сотрудничает с Major League Soccer, Tennis Australia и Maple Leaf Sports & Entertainment, а также с ведущими киностудиями и музыкальными компаниями, а также различными государственными учреждениями.

Примечательно, что Camb AI вошел в историю, проведя синхронный дубляж матча Major League Soccer на четырех языках одновременно в течение более двух часов, а также переведя пресс-конференцию после матча Australian Open на несколько языков и адаптировав психологический триллер «Три» с арабского на мандарин.

Most people like

Find AI tools in YBX