Desbloqueando o Futuro: MyShell Lança OpenVoice, o Novo Modelo de Clonagem de Voz com Inteligência Artificial Open Source

Startups como a ElevenLabs investiram milhões no desenvolvimento de algoritmos proprietários e software de IA para clonagem de voz, criando programas de áudio que replicam vozes de usuários. Agora, pesquisadores do Massachusetts Institute of Technology (MIT), da Universidade Tsinghua em Pequim e da startup de IA MyShell apresentam o OpenVoice—uma solução de clonagem de voz de código aberto que oferece resultados quase instantâneos e controles detalhados ausentes em outras plataformas.

"Clone vozes com precisão incomparável, ajustando tom, emoção, sotaque, ritmo, pausas e entonação a partir de um pequeno clipe de áudio", afirma a MyShell em uma postagem recente no X. A empresa compartilhou um link para seu artigo de pesquisa, que detalha o desenvolvimento do OpenVoice, juntamente com opções de acesso para os usuários testarem: o aplicativo web da MyShell (conta de usuário necessária) e HuggingFace (acesso público sem conta).

Em um e-mail, o pesquisador principal Zengyi Qin, do MIT, e a MyShell destacaram o objetivo do projeto: "A MyShell visa beneficiar a comunidade de pesquisa. O OpenVoice é apenas o começo. No futuro, forneceremos subsídios, conjuntos de dados e poder computacional para apoiar a pesquisa de código aberto. Nossa missão central é ‘IA para Todos’."

Sobre a motivação por trás do OpenVoice, Qin explicou: "Linguagem, visão e voz são três modalidades essenciais para a futura Inteligência Geral Artificial (AGI). Embora existam vários modelos de código aberto para linguagem e visão, faltava um poderoso modelo de clonagem de voz instantânea para personalização, por isso decidimos desenvolver este projeto."

Usando o OpenVoice

Em testes informais com o HuggingFace, consegui gerar rapidamente uma réplica convincente—embora um tanto robótica—da minha voz usando fala aleatória. Diferente de outras aplicações de clonagem de voz, o OpenVoice me permitiu falar livremente, sem seguir um roteiro específico. Em apenas alguns segundos, tive um clone de voz que reproduziu com precisão meu texto.

Além disso, pude ajustar o "estilo" do clone entre diferentes predefinições emocionais, como alegre, triste ou bravo, alterando efetivamente o tom. Aqui está um exemplo do meu clone de voz usando o OpenVoice definido para um tom "amigável".

Como o OpenVoice foi Criado

Os criadores do OpenVoice—Qin, Wenliang Zhao e Xumin Yu da Universidade Tsinghua, e Xin Sun da MyShell—descreveram seu método em seu artigo de pesquisa. O OpenVoice consiste em dois modelos de IA principais: um modelo de texto-para-fala (TTS) e um conversor de tom.

O modelo TTS gerencia parâmetros de estilo e idiomas, treinado com 30.000 frases de dois falantes de inglês (com sotaques americano e britânico), um falante de chinês e um de japonês, cada um rotulado com emoções específicas. O modelo apreendeu nuances como entonação, ritmo e pausas.

O conversor de tom foi treinado com mais de 300.000 amostras de áudio de mais de 20.000 falantes. O áudio da linguagem falada é convertido em fonemas—sons distintos que diferenciam palavras—e representado como embeddings vetoriais.

Utilizando um "falante base" para o modelo TTS, em combinação com informações de tom fornecidas pelo usuário, esses modelos conseguem replicar a voz do usuário e adaptar sua expressão emocional. O diagrama na pesquisa do OpenVoice ilustra como esses modelos se integram. Apesar da simplicidade conceitual, esse método é eficiente e requer significativamente menos recursos computacionais do que concorrentes como o Voicebox da Meta.

Qin compartilhou: “Nosso objetivo era desenvolver o modelo de clonagem de voz instantânea mais flexível. Essa flexibilidade significa controle sobre estilos, emoções, sotaques e adaptabilidade a qualquer língua. Anteriormente, tal funcionalidade abrangente era inatingível devido à sua complexidade. Através de um processo de pipeline desacoplado, alcançamos resultados eficazes com simplicidade.”

Por trás do OpenVoice

Fundada em 2023, a MyShell levantou US$ 5,6 milhões em uma rodada inicial liderada pela INCE Capital, com contribuições da Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC e OP Crypto, já contando com mais de 400.000 usuários, segundo a The SaaS News. Durante minha pesquisa, observei mais de 61.000 usuários em seu servidor Discord.

A MyShell se descreve como uma “plataforma descentralizada e abrangente para descobrir, criar e investir em aplicativos nativos de IA.” Além do OpenVoice, seu aplicativo web apresenta diversos personagens e bots baseados em texto, com personalidades distintas, semelhantes ao Character.AI, e inclui ferramentas como um criador de GIFs animados e RPGs gerados por usuários baseados em franquias populares.

Quanto à monetização, a MyShell cobra uma assinatura mensal para usuários do aplicativo web e para criadores de bots de terceiros que desejam promover seus produtos dentro do aplicativo. Eles também têm tarifas para dados de treinamento de IA.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles