Desbloqueando o Futuro: MyShell Lança OpenVoice, o Novo Modelo de Clonagem de Voz com Inteligência Artificial Open Source

Home Notícias de IA Desbloqueando o Futuro: MyShell Lança OpenVoice, o Novo Modelo de Clonagem de Voz com Inteligência Artificial Open Source

Updated on outubro 30 2024

Startups como a ElevenLabs investiram milhões no desenvolvimento de algoritmos proprietários e software de IA para clonagem de voz, criando programas de áudio que replicam vozes de usuários. Agora, pesquisadores do Massachusetts Institute of Technology (MIT), da Universidade Tsinghua em Pequim e da startup de IA MyShell apresentam o OpenVoice—uma solução de clonagem de voz de código aberto que oferece resultados quase instantâneos e controles detalhados ausentes em outras plataformas.

"Clone vozes com precisão incomparável, ajustando tom, emoção, sotaque, ritmo, pausas e entonação a partir de um pequeno clipe de áudio", afirma a MyShell em uma postagem recente no X. A empresa compartilhou um link para seu artigo de pesquisa, que detalha o desenvolvimento do OpenVoice, juntamente com opções de acesso para os usuários testarem: o aplicativo web da MyShell (conta de usuário necessária) e HuggingFace (acesso público sem conta).

Em um e-mail, o pesquisador principal Zengyi Qin, do MIT, e a MyShell destacaram o objetivo do projeto: "A MyShell visa beneficiar a comunidade de pesquisa. O OpenVoice é apenas o começo. No futuro, forneceremos subsídios, conjuntos de dados e poder computacional para apoiar a pesquisa de código aberto. Nossa missão central é ‘IA para Todos’."

Sobre a motivação por trás do OpenVoice, Qin explicou: "Linguagem, visão e voz são três modalidades essenciais para a futura Inteligência Geral Artificial (AGI). Embora existam vários modelos de código aberto para linguagem e visão, faltava um poderoso modelo de clonagem de voz instantânea para personalização, por isso decidimos desenvolver este projeto."

Usando o OpenVoice

Em testes informais com o HuggingFace, consegui gerar rapidamente uma réplica convincente—embora um tanto robótica—da minha voz usando fala aleatória. Diferente de outras aplicações de clonagem de voz, o OpenVoice me permitiu falar livremente, sem seguir um roteiro específico. Em apenas alguns segundos, tive um clone de voz que reproduziu com precisão meu texto.

Além disso, pude ajustar o "estilo" do clone entre diferentes predefinições emocionais, como alegre, triste ou bravo, alterando efetivamente o tom. Aqui está um exemplo do meu clone de voz usando o OpenVoice definido para um tom "amigável".

Como o OpenVoice foi Criado

Os criadores do OpenVoice—Qin, Wenliang Zhao e Xumin Yu da Universidade Tsinghua, e Xin Sun da MyShell—descreveram seu método em seu artigo de pesquisa. O OpenVoice consiste em dois modelos de IA principais: um modelo de texto-para-fala (TTS) e um conversor de tom.

O modelo TTS gerencia parâmetros de estilo e idiomas, treinado com 30.000 frases de dois falantes de inglês (com sotaques americano e britânico), um falante de chinês e um de japonês, cada um rotulado com emoções específicas. O modelo apreendeu nuances como entonação, ritmo e pausas.

O conversor de tom foi treinado com mais de 300.000 amostras de áudio de mais de 20.000 falantes. O áudio da linguagem falada é convertido em fonemas—sons distintos que diferenciam palavras—e representado como embeddings vetoriais.

Utilizando um "falante base" para o modelo TTS, em combinação com informações de tom fornecidas pelo usuário, esses modelos conseguem replicar a voz do usuário e adaptar sua expressão emocional. O diagrama na pesquisa do OpenVoice ilustra como esses modelos se integram. Apesar da simplicidade conceitual, esse método é eficiente e requer significativamente menos recursos computacionais do que concorrentes como o Voicebox da Meta.

Qin compartilhou: “Nosso objetivo era desenvolver o modelo de clonagem de voz instantânea mais flexível. Essa flexibilidade significa controle sobre estilos, emoções, sotaques e adaptabilidade a qualquer língua. Anteriormente, tal funcionalidade abrangente era inatingível devido à sua complexidade. Através de um processo de pipeline desacoplado, alcançamos resultados eficazes com simplicidade.”

Por trás do OpenVoice

Fundada em 2023, a MyShell levantou US$ 5,6 milhões em uma rodada inicial liderada pela INCE Capital, com contribuições da Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC e OP Crypto, já contando com mais de 400.000 usuários, segundo a The SaaS News. Durante minha pesquisa, observei mais de 61.000 usuários em seu servidor Discord.

A MyShell se descreve como uma “plataforma descentralizada e abrangente para descobrir, criar e investir em aplicativos nativos de IA.” Além do OpenVoice, seu aplicativo web apresenta diversos personagens e bots baseados em texto, com personalidades distintas, semelhantes ao Character.AI, e inclui ferramentas como um criador de GIFs animados e RPGs gerados por usuários baseados em franquias populares.

Quanto à monetização, a MyShell cobra uma assinatura mensal para usuários do aplicativo web e para criadores de bots de terceiros que desejam promover seus produtos dentro do aplicativo. Eles também têm tarifas para dados de treinamento de IA.

Transformando o Banco: Elevando as Jornadas Digitais dos Clientes Além de Transações Simples

Relatório de Fim de Ano da Suprema Corte Explora o Futuro da IA no Sistema Judiciário

Most people like

MusicHero.ai

876.5K

Descubra o mundo inovador da geração musical por IA, onde você pode transformar suas palavras escritas em melodias cativantes. Nosso gerador de música por IA gratuito permite converter facilmente texto em composições musicais originais, capacitando artistas, entusiastas e todos apaixonados por música a explorar novos horizontes criativos. Mergulhe na experiência perfeita de criar trilhas sonoras únicas que ressoam com suas ideias e emoções—tudo sem nenhum custo!

Gerador de música por IA AI Music Generator

Affpilot AI

94.3K

No cenário digital atual, produzir conteúdo de alta qualidade que tenha um bom posicionamento nos motores de busca é crucial para o sucesso online. Nossa plataforma impulsionada por IA simplifica o processo de geração de artigos otimizados para SEO, adaptados às necessidades do seu público. Aproveitando algoritmos avançados e insights de dados, capacitamos os usuários a criar conteúdo envolvente e rico em palavras-chave que aumenta a visibilidade e atrai tráfego orgânico. Seja você um blogueiro, marqueteiro ou proprietário de negócio, essa ferramenta poderosa permite que você gaste menos tempo escrevendo enquanto maximiza seu alcance na competitiva esfera online.

Artigos otimizados para SEO AI SEO Assistant

Araby.ai

276.1K

Descubra a Araby.ai, sua fonte confiável de ferramentas avançadas de IA em árabe, projetadas para impulsionar diversas indústrias. Experimente o futuro da tecnologia com nossas soluções inovadoras, adaptadas para usuários de língua árabe.

IA Árabe AI Productivity Tools

Kimi Chat

24.5M

Apresentando um assistente inteligente equipado com capacidades de memória ilimitadas. Esta ferramenta avançada não só lembra de tudo, mas também aumenta sua produtividade e eficiência, transformando a maneira como você gerencia tarefas e informações. Descubra como este poderoso recurso pode revolucionar suas rotinas diárias e manter sua vida organizada sem esforço.

assistente inteligente AI Chatbot

Find AI tools in YBX