A linguagem é fundamental para a interação humana — assim como as emoções que a acompanham. Expressar sentimentos como felicidade, tristeza, raiva e frustração enriquece nossas mensagens e aprofunda nossas conexões. Embora a IA generativa tenha avançado em várias áreas, ela ainda enfrenta dificuldades em capturar as sutilezas das emoções humanas.
A Typecast, uma startup inovadora, visa mudar isso com sua nova tecnologia de Transferência de Emoção entre Falantes. Este recurso permite que usuários adicionem emoções capturadas da voz de outra pessoa às suas próprias gravações, preservando seu estilo vocal único. Essa inovação simplifica a criação de conteúdo e está disponível através do My Voice Maker da Typecast.
"Os atores de IA ainda não conseguem capturar totalmente a gama emocional dos humanos, que é a sua maior limitação", afirma Taesu Kim, CEO e cofundador da Neosapience e da Typecast. Com a Transferência de Emoção entre Falantes da Typecast, "qualquer pessoa pode utilizar atores de IA com uma profundidade emocional genuína a partir de apenas uma pequena amostra de voz."
Decodificando Emoções
As emoções humanas geralmente se encaixam em sete categorias: felicidade, tristeza, raiva, medo, surpresa e nojo, baseadas em expressões faciais universais. No entanto, essas categorias não conseguem transmitir todo o espectro de emoções na fala gerada. A fala não é apenas uma conversão direta de texto para voz. “Os humanos podem expressar a mesma frase de inúmeras maneiras”, explica Kim em uma entrevista exclusiva. Diferentes emoções podem ser expressas na mesma frase — e até mesmo na mesma palavra.
Por exemplo, a pergunta “Como você pode fazer isso comigo?” pode ser dita de maneiras completamente diferentes, dependendo do tom emocional: de decepção a raiva. Emoções complexas, como “Muito triste porque seu pai faleceu, mas mostrando um sorriso no rosto”, também desafiam a categorização singular. Pesquisadores, incluindo Kim, enfatizam que a capacidade de transmitir emoções variadas enriquece as conversas.
Limitações da Síntese de Fala Emocional
A tecnologia de texto-para-fala avançou rapidamente, especialmente através de modelos como ChatGPT, LaMDA, LLama e Bard. No entanto, alcançar uma síntese de fala emocional ainda é desafiador, muitas vezes exigindo grandes volumes de dados rotulados que são difíceis de obter. Capturar as nuances de várias emoções tradicionalmente requer um processo demorado. "É incrivelmente difícil gravar frases extensas mantendo a emoção", observa Kim.
Na síntese de fala emocional convencional, cada dado de treinamento precisa ter uma etiqueta emocional, o que frequentemente requer codificação adicional ou áudio de referência. Isso se torna problemático quando não há dados disponíveis para cada emoção ou falante, levando a erros de rotulagem e dificuldades em capturar a intensidade emocional. A transferência de emoção entre falantes apresenta desafios adicionais, especialmente ao atribuir emoções não vistas a diferentes locutores. A tecnologia atual muitas vezes resulta em fala emocional artificial quando falantes neutros tentam produzir essa emoção.
Inovações com Redes Neurais Profundas e Aprendizado Não Supervisionado
Para enfrentar esses desafios, os pesquisadores incorporaram rótulos emocionais em uma rede neural profunda generativa — uma abordagem inovadora. No entanto, isso por si só não foi suficiente para expressar emoções e estilos de fala complexos. Em seguida, um algoritmo de aprendizado não supervisionado foi desenvolvido para identificar estilos de fala e emoções a partir de um vasto banco de dados. O treinamento ocorreu sem rótulos emocionais, permitindo que o modelo extraísse representações valiosas a partir dos dados de fala. Embora essas representações possam não ser compreensíveis para humanos, elas podem informar algoritmos de texto-para-fala na expressão de emoções.
Avanços adicionais incluíram o treinamento de uma rede neural de percepção para converter descrições emocionais em linguagem natural em representações utilizáveis. “Com essa tecnologia, os usuários não precisam mais gravar centenas de estilos de fala ou emoções diferentes; o sistema aprende a partir de um amplo banco de dados de vozes emocionais”, afirma Kim.
Adaptando Características Vocais Facilmente
Os pesquisadores conseguiram alcançar a “sintetização de fala emocional transferível e controlável” aproveitando representações latentes. Técnicas como treinamento adversarial de domínio e perda de consistência de ciclo permitem o desdobramento das características do falante do estilo de fala. Analisando uma ampla variedade de vozes humanas gravadas, o sistema aprende padrões emocionais, tons e inflexões. O método transfere emoções para um falante neutro utilizando apenas algumas amostras rotuladas, com a capacidade de controlar a intensidade emocional por meio de valores escalares intuitivos.
Essa inovação permite que os usuários gravem um breve trecho de voz, aplicando diversas emoções sem alterar sua identidade vocal única. Ao gravar apenas cinco minutos de fala, eles podem expressar emoções como felicidade, tristeza e raiva, mesmo ao falar normalmente. A tecnologia da Typecast já foi implementada por empresas notáveis como Samsung Securities e LG Electronics, com a startup garantindo US$ 26,8 milhões desde sua fundação em 2017. Atualmente, a Typecast explora aplicações de suas tecnologias de síntese de fala em expressões faciais.
A Importância do Controle na IA Generativa
No panorama midiático em rápida evolução, como Kim nota, a popularidade dos blogs baseados em texto migrou para vídeos curtos, forçando indivíduos e empresas a produzir mais conteúdo de áudio e vídeo do que nunca. “Uma voz expressiva de alta qualidade é essencial para transmitir mensagens corporativas”, afirma Kim. A eficiência na produção é vital, pois o trabalho manual de atores humanos muitas vezes é demasiado lento. "O controle na IA generativa é crucial para a criação de conteúdo. Essas tecnologias capacitam indivíduos e empresas a desbloquear seu potencial criativo enquanto aumentam a produtividade."