Startups como a ElevenLabs investiram milhões no desenvolvimento de algoritmos proprietários e software de IA para clonagem de voz, criando programas de áudio que replicam vozes de usuários. Agora, pesquisadores do Massachusetts Institute of Technology (MIT), da Universidade Tsinghua em Pequim e da startup de IA MyShell apresentam o OpenVoice—uma solução de clonagem de voz de código aberto que oferece resultados quase instantâneos e controles detalhados ausentes em outras plataformas.
"Clone vozes com precisão incomparável, ajustando tom, emoção, sotaque, ritmo, pausas e entonação a partir de um pequeno clipe de áudio", afirma a MyShell em uma postagem recente no X. A empresa compartilhou um link para seu artigo de pesquisa, que detalha o desenvolvimento do OpenVoice, juntamente com opções de acesso para os usuários testarem: o aplicativo web da MyShell (conta de usuário necessária) e HuggingFace (acesso público sem conta).
Em um e-mail, o pesquisador principal Zengyi Qin, do MIT, e a MyShell destacaram o objetivo do projeto: "A MyShell visa beneficiar a comunidade de pesquisa. O OpenVoice é apenas o começo. No futuro, forneceremos subsídios, conjuntos de dados e poder computacional para apoiar a pesquisa de código aberto. Nossa missão central é ‘IA para Todos’."
Sobre a motivação por trás do OpenVoice, Qin explicou: "Linguagem, visão e voz são três modalidades essenciais para a futura Inteligência Geral Artificial (AGI). Embora existam vários modelos de código aberto para linguagem e visão, faltava um poderoso modelo de clonagem de voz instantânea para personalização, por isso decidimos desenvolver este projeto."
Usando o OpenVoice
Em testes informais com o HuggingFace, consegui gerar rapidamente uma réplica convincente—embora um tanto robótica—da minha voz usando fala aleatória. Diferente de outras aplicações de clonagem de voz, o OpenVoice me permitiu falar livremente, sem seguir um roteiro específico. Em apenas alguns segundos, tive um clone de voz que reproduziu com precisão meu texto.
Além disso, pude ajustar o "estilo" do clone entre diferentes predefinições emocionais, como alegre, triste ou bravo, alterando efetivamente o tom. Aqui está um exemplo do meu clone de voz usando o OpenVoice definido para um tom "amigável".
Como o OpenVoice foi Criado
Os criadores do OpenVoice—Qin, Wenliang Zhao e Xumin Yu da Universidade Tsinghua, e Xin Sun da MyShell—descreveram seu método em seu artigo de pesquisa. O OpenVoice consiste em dois modelos de IA principais: um modelo de texto-para-fala (TTS) e um conversor de tom.
O modelo TTS gerencia parâmetros de estilo e idiomas, treinado com 30.000 frases de dois falantes de inglês (com sotaques americano e britânico), um falante de chinês e um de japonês, cada um rotulado com emoções específicas. O modelo apreendeu nuances como entonação, ritmo e pausas.
O conversor de tom foi treinado com mais de 300.000 amostras de áudio de mais de 20.000 falantes. O áudio da linguagem falada é convertido em fonemas—sons distintos que diferenciam palavras—e representado como embeddings vetoriais.
Utilizando um "falante base" para o modelo TTS, em combinação com informações de tom fornecidas pelo usuário, esses modelos conseguem replicar a voz do usuário e adaptar sua expressão emocional. O diagrama na pesquisa do OpenVoice ilustra como esses modelos se integram. Apesar da simplicidade conceitual, esse método é eficiente e requer significativamente menos recursos computacionais do que concorrentes como o Voicebox da Meta.
Qin compartilhou: “Nosso objetivo era desenvolver o modelo de clonagem de voz instantânea mais flexível. Essa flexibilidade significa controle sobre estilos, emoções, sotaques e adaptabilidade a qualquer língua. Anteriormente, tal funcionalidade abrangente era inatingível devido à sua complexidade. Através de um processo de pipeline desacoplado, alcançamos resultados eficazes com simplicidade.”
Por trás do OpenVoice
Fundada em 2023, a MyShell levantou US$ 5,6 milhões em uma rodada inicial liderada pela INCE Capital, com contribuições da Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC e OP Crypto, já contando com mais de 400.000 usuários, segundo a The SaaS News. Durante minha pesquisa, observei mais de 61.000 usuários em seu servidor Discord.
A MyShell se descreve como uma “plataforma descentralizada e abrangente para descobrir, criar e investir em aplicativos nativos de IA.” Além do OpenVoice, seu aplicativo web apresenta diversos personagens e bots baseados em texto, com personalidades distintas, semelhantes ao Character.AI, e inclui ferramentas como um criador de GIFs animados e RPGs gerados por usuários baseados em franquias populares.
Quanto à monetização, a MyShell cobra uma assinatura mensal para usuários do aplicativo web e para criadores de bots de terceiros que desejam promover seus produtos dentro do aplicativo. Eles também têm tarifas para dados de treinamento de IA.