Meta Lança Audiobox: Uma Ferramenta de IA que Clona Vozes e Cria Paisagens Sonoras Ambientais

Clonagem de Voz: O Futuro da Geração de Áudio com IA

A clonagem de voz é um campo em rápida evolução dentro da IA generativa, envolvendo a replicação das características vocais de uma pessoa—como altura, timbre, ritmo, manias e pronúncias únicas—por meio de tecnologia avançada. Startups como a ElevenLabs têm atraído investimentos significativos para esse fim, enquanto a Meta Platforms, empresa-mãe do Facebook, Instagram, WhatsApp e Oculus VR, lançou sua própria ferramenta gratuita de clonagem de voz chamada Audiobox, embora com algumas limitações.

Apresentando o Audiobox

Desenvolvido por pesquisadores do laboratório Facebook AI Research (FAIR), o Audiobox é descrito como um "modelo de pesquisa fundamental para geração de áudio", construído sobre trabalhos anteriores com o Voicebox. De acordo com a página do Audiobox, "ele pode gerar vozes e efeitos sonoros utilizando uma combinação de entradas de voz e prompts de texto em linguagem natural, facilitando a criação de áudio personalizado para diversas aplicações."

Os usuários podem simplesmente digitar uma frase para que uma voz clonada a diga ou descrever um som que desejam gerar. Alternativamente, podem gravar sua própria voz e fazer com que ela seja clonada pelo Audiobox.

Uma Família de Modelos Geradores de Áudio

A Meta desenvolveu uma "família de modelos", incluindo um para imitação de fala e outro para efeitos sonoros ambientais, como latidos de cães ou sirenes, todos construídos sobre o modelo compartilhado de aprendizado auto-supervisionado (SSL), Audiobox SSL.

O aprendizado auto-supervisionado é uma técnica de aprendizado profundo onde algoritmos de IA geram suas próprias etiquetas para dados não rotulados, ao contrário do aprendizado supervisionado que depende de dados previamente rotulados. O artigo dos pesquisadores explica sua abordagem SSL, enfatizando que "dados rotulados nem sempre estão disponíveis ou têm alta qualidade; portanto, nossa estratégia é treinar usando áudio sem supervisão, como transcrições ou legendas."

Os principais modelos de IA generativa, incluindo o Audiobox, frequentemente dependem de dados gerados por humanos para treinamento. Nesse caso, os pesquisadores do FAIR utilizaram "160 mil horas de fala (principalmente em inglês), 20 mil horas de música e 6 mil horas de amostras sonoras." Os dados de fala incluem audiolivros, podcasts, conversas e gravações em diversos ambientes acústicos, abrangendo falantes de mais de 150 países e mais de 200 idiomas principais.

Embora o artigo de pesquisa não especifique as fontes desses dados, levanta uma questão importante: criadores de conteúdo e detentores de direitos expressaram preocupações sobre empresas de IA treinando modelos com material potencialmente protegido por direitos autorais sem o devido consentimento. A Meta declarou em um e-mail que "o Audiobox foi treinado com conjuntos de dados disponíveis publicamente e licenciados," mas não revelou fontes específicas.

Experimente o Audiobox Você Mesmo

A Meta oferece demonstrações interativas que mostram as capacidades do Audiobox, permitindo que os usuários gravem sua voz, gerem uma voz clonada e depois insiram texto para que essa voz fale. Em minha experiência, o áudio resultante era surpreendentemente semelhante à minha própria voz—confirmado por familiares que ouviram sem saber a origem.

Os usuários também podem criar vozes totalmente novas com base em descrições de texto, como "voz feminina profunda" ou "falante masculino de agudos dos EUA," e gerar diversos sons, como latidos de cães. Testei esse recurso com "latidos de cães" e obtive dois resultados convincentes.

No entanto, há uma ressalva significativa: um aviso afirma que "esta é uma demonstração de pesquisa e não pode ser usada para fins comerciais." Além disso, é limitada a usuários fora de Illinois e Texas devido a leis estaduais que regem a coleta de áudio.

Futuro do Audiobox e da Geração de Áudio com IA

Diferente de sua recente ferramenta de geração de imagens Imagine by Meta AI, o Audiobox não é de código aberto, afastando-se do compromisso de transparência anteriormente estabelecido pela Meta, como observado na família de modelos de linguagem Llama 2. Um porta-voz da Meta indicou que a empresa planeja convidar pesquisadores e instituições acadêmicas para se inscreverem a subsídios voltados à pesquisa de segurança e responsabilidade com o Audiobox.

Atualmente, o Audiobox não pode ser usado para fins comerciais, nem está disponível para residentes de dois dos estados mais populosos dos EUA. No entanto, à medida que a tecnologia de IA continua a evoluir rapidamente, podemos antecipar o surgimento de versões comerciais—independentemente de serem desenvolvidas pela Meta ou por outros desenvolvedores.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles