A Camb lança o Mars5, um modelo de IA de clonagem de voz aberto que rivaliza com o ElevenLabs, oferecendo realismo aprimorado e suporte para 140 idiomas.

Hoje, a Camb AI, uma startup baseada em Dubai que se especializa em tecnologias de localização de conteúdo impulsionadas por IA, lançou o Mars5, um modelo avançado de clonagem de voz. Enquanto muitos modelos, como os da ElevenLabs, podem criar réplicas digitais de voz, a Camb AI se destaca pela realismo inigualável do Mars5. De acordo com amostras iniciais da empresa, o Mars5 não apenas imita a voz original, mas também captura elementos prosódicos intricados, como ritmo, emoção e entonação.

A Camb AI oferece suporte a quase três vezes mais idiomas do que a ElevenLabs, abrangendo mais de 140 idiomas — incluindo aqueles menos comuns, como islandês e suaíli — em comparação com os 36 da ElevenLabs. A versão em inglês, disponibilizada como código aberto, já pode ser acessada no GitHub a partir de hoje, enquanto o suporte a idiomas mais amplos está disponível através do Camb Studio pago.

“O nível de prosódia e realismo que o Mars5 captura com apenas alguns segundos de entrada é sem precedentes. Este é um momento inovador na tecnologia de fala”, afirmou Akshat Prakash, cofundador e CTO.

Integração de Clonagem de Voz e Texto para Fala

Tradicionalmente, a clonagem de voz e o texto para fala são processos distintos: a clonagem de voz cria uma voz sintética a partir de amostras de áudio, enquanto o texto para fala utiliza essa voz para ler textos. No entanto, o Mars5 integra ambas as capacidades em uma única plataforma. Os usuários simplesmente enviam um arquivo de áudio — com duração de alguns segundos a um minuto — e fornecem o texto a ser sintetizado. O modelo analisa o áudio para replicar a voz, estilo, emoção e significado do falante, transformando o texto em uma fala natural.

A Camb AI afirma que o Mars5 captura de forma eficaz uma ampla gama de tons emocionais, lidando com situações de fala complexas como frustração, comando, calma ou entusiasmo. Essa versatilidade torna o Mars5 ideal para conteúdos tradicionalmente desafiadores, como comentários esportivos, filmes e anime.

Para alcançar esse nível de prosódia, o Mars5 combina um modelo autoregressivo estilo Mistral de cerca de 750 milhões de parâmetros com um modelo multinomial de difusão não autoregressiva inovador de aproximadamente 450 milhões de parâmetros, utilizando tokens encodec de 6 kbps.

“O modelo AR prevê os valores mais básicos do código para as características do encodec, enquanto o modelo NAR refina essas previsões, ‘completando’ as entradas restantes do código. Essa abordagem utiliza um processo de difusão de remoção de ruído para maior precisão”, explicou Prakash.

Desempenho Comparado a Outros Modelos

Embora as estatísticas específicas de benchmark estejam pendentes, testes iniciais sugerem que o Mars5 supera modelos populares de síntese de fala, como Metavoice e ElevenLabs, frequentemente produzindo resultados que se assemelham mais à voz original do que os concorrentes.

“Embora a ElevenLabs tenha treinado em um conjunto de dados significativamente maior, de mais de 500 mil horas, nosso design de modelo captura as nuances da fala de forma mais eficaz. À medida que expandimos nossos conjuntos de dados e treinamos ainda mais o Mars5 — com atualizações sendo liberadas no GitHub — antevemos melhorias ainda maiores”, acrescentou Prakash.

A Camb AI também está preparando o lançamento de outro modelo de código aberto chamado Boli, projetado para traduções que entendem o contexto, garantem precisão gramatical e capturam nuances coloquiais.

“O Boli supera as ferramentas de tradução tradicionais, como o Google Translate, ao oferecer traduções nuanceadas e culturalmente relevantes, especialmente para idiomas com poucos recursos. O feedback sugere que o Boli supera de forma significativa as ferramentas convencionais, incluindo modelos generativos avançados como o ChatGPT”, afirmou Prakash.

Atualmente, tanto o Mars5 quanto o Boli suportam 140 idiomas na plataforma proprietária da Camb, Camb Studio, e a empresa está oferecendo essas capacidades como APIs para empresas, PMEs e desenvolvedores. A Camb AI colabora com a Major League Soccer, Tennis Australia, Maple Leaf Sports & Entertainment, bem como estúdios de cinema e música de destaque e várias agências governamentais.

Notavelmente, a Camb AI fez história ao dublar ao vivo um jogo da Major League Soccer em quatro idiomas simultaneamente por mais de duas horas, além de traduzir a coletiva de imprensa pós-jogo do Australian Open para múltiplos idiomas e converter o thriller psicológico “Three” do árabe para o mandarim.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles