A OpenAI está expandindo seu alcance além da geração de texto, imagem e vídeo com um avanço significativo na tecnologia de áudio: a clonagem de voz. Hoje, a empresa anunciou seu mais recente modelo de IA, o “Voice Engine”. Em desenvolvimento desde 2022, esse modelo alimenta a API de texto para fala da OpenAI, além das novas funcionalidades de Voz e Leitura do ChatGPT, lançadas no início deste mês.
Como Funciona a Clonagem de Voz
O Voice Engine pode criar clones de voz realistas ao fazer um falante humano gravar um clipe de áudio de 15 segundos através de um microfone de telefone ou computador. Então, a IA gera uma fala natural que se assemelha ao falante original, permitindo que os usuários convertam qualquer texto digitado em palavras faladas.
Implicações Significativas para o Mercado de Áudio Falado
Essa tecnologia possui um enorme potencial para indivíduos que frequentemente falam em público, como podcasters, artistas de dublagem, narradores de audiolivros, gamers e representantes de atendimento ao cliente. Ademais, isso desafia empresas concorrentes nesse espaço, como ElevenLabs, Captions, Meta, WellSaid Labs e MyShell.
A OpenAI também ressalta a capacidade do Voice Engine de ajudar indivíduos não verbais, oferecendo vozes únicas e não robóticas, que podem ser cruciais em contextos terapêuticos e educacionais para aqueles com dificuldades de fala ou desafios de aprendizado.
Casos de Uso Iniciais
Na sua divulgação, a OpenAI mencionou que o Voice Engine está atualmente acessível a um pequeno grupo de parceiros confiáveis, incluindo:
- Age of Learning: Utiliza o Voice Engine e o GPT-4 para criar conteúdo de voz personalizado para diversas audiências estudantis.
- HeyGen: Emprega a tecnologia para tradução de vídeos, criando avatares personalizados com vozes multilíngues reais para melhorar a comunicação global.
- Dimagi: Integra o Voice Engine para fornecer feedback interativo e multilíngue para trabalhadores da saúde comunitária, aprimorando a entrega de serviços em áreas remotas.
- Livox: Melhora seu aplicativo AAC com o Voice Engine, proporcionando vozes exclusivas para indivíduos com deficiências de fala e audição.
- Instituto de Neurociências Norman Prince no Lifespan: Utiliza a tecnologia para ajudar pacientes com dificuldades na fala, notavelmente restaurando a voz de um paciente com tumor cerebral com base em uma amostra de áudio anterior.
A OpenAI apresentou amostras de áudio demonstrando as capacidades da tecnologia, incluindo uma comparação entre a voz original de um paciente e a versão clonada usando o Voice Engine.
Acesso Limitado e Implementação Cautelosa
Por enquanto, o Voice Engine não está disponível para o público em geral. A OpenAI está compartilhando percepções e resultados de uma prévia em pequena escala exclusivamente com seus parceiros confiáveis. A empresa afirmou: "Estamos adotando uma abordagem cautelosa e informada para um lançamento mais amplo devido ao potencial de uso indevido de vozes sintéticas." A OpenAI busca iniciar conversas sobre o uso responsável de vozes sintéticas e avaliar como a sociedade pode se adaptar a esses avanços.
A abordagem da OpenAI para o lançamento do Voice Engine é consistente com os recentes pedidos por regulamentações sobre a imitação de vozes por IA. Para garantir o uso ético, os parceiros que testam a tecnologia devem seguir políticas rigorosas, proibindo a imitação não autorizada e exigindo consentimento informado dos doadores de voz. Além disso, a OpenAI está implementando medidas de segurança, incluindo marca d'água e monitoramento proativo, para promover o uso responsável da tecnologia.