La tecnología revolucionaria de Typecast permite que la inteligencia artificial generativa exprese emociones humanas.

El lenguaje es fundamental para la interacción humana, al igual que la emoción que lo acompaña. Expresar emociones como la felicidad, la tristeza, la ira y la frustración enriquece nuestros mensajes y profundiza nuestras conexiones. Aunque la IA generativa ha avanzado en diversas áreas, a menudo enfrenta dificultades con las sutilezas de la emoción humana. Typecast, una innovadora startup, busca cambiar esto con su nueva tecnología de Transferencia de Emoción entre Hablantes. Esta función permite a los usuarios incorporar emociones capturadas de la voz de otros en sus propias grabaciones, preservando su estilo vocal único. Este avance simplifica la creación de contenido y está disponible a través de My Voice Maker de Typecast.

“Los actores de IA aún no han logrado captar completamente la gama emocional de los humanos, lo cual es su mayor limitación”, afirma Taesu Kim, CEO y cofundador de Neosapience y Typecast. Con la Transferencia de Emoción entre Hablantes de Typecast, "cualquiera puede usar actores de IA con una profundidad emocional genuina a partir de solo una pequeña muestra de voz".

Descodificando la Emoción

Las emociones humanas típicamente se clasifican en siete categorías: felicidad, tristeza, ira, miedo, sorpresa y disgusto, basadas en expresiones faciales universales. Sin embargo, estas categorías son insuficientes para transmitir el espectro completo de emociones en el habla generada. Hablar no es simplemente una traducción directa de texto a voz. “Los humanos pueden transmitir la misma frase de innumerables maneras,” explica Kim en una entrevista exclusiva. Diferentes emociones pueden expresarse dentro de la misma frase e incluso la misma palabra. Por ejemplo, preguntar “¿Cómo puedes hacerme esto?” puede hacerse de maneras completamente diferentes, según el tono emocional: desde decepción hasta ira. Incluso emociones complejas, como “Tan triste porque su padre falleció, pero mostrando una sonrisa,” resisten una categorización singular. Los investigadores, incluido Kim, destacan que la capacidad de transmitir diversas emociones enriquece las conversaciones.

Limitaciones de la Tecnología de Texto a Voz Emocional

La tecnología de texto a voz ha avanzado rápidamente, especialmente a través de modelos como ChatGPT, LaMDA, LLama y Bard. Sin embargo, lograr un texto a voz emocional sigue siendo un desafío. Esto a menudo requiere grandes volúmenes de datos etiquetados, difíciles de adquirir. Grabar los matices de diversas emociones ha sido un proceso tradicionalmente laborioso. "Es increíblemente difícil grabar frases extensas mientras se preserva la emoción de manera constante," observa Kim.

En la síntesis de voz emocional convencional, cada dato de entrenamiento debe tener una etiqueta emocional, a menudo requiriendo codificación adicional o audio de referencia. Esto se convierte en un problema cuando no hay datos disponibles para cada emoción o hablante, lo que lleva a errores de etiquetado y dificultades en la captura de la intensidad emocional. La transferencia de emociones entre hablantes presenta desafíos adicionales, especialmente al asignar emociones no vistas a diferentes locutores. La tecnología actual a menudo produce resultados poco naturales cuando hablantes neutrales intentan generar un habla emocional.

Innovación con Redes Neuronales Profundas y Aprendizaje No Supervisado

Para abordar estos desafíos, los investigadores incorporaron etiquetas de emoción en una red neuronal profunda generativa, representando un enfoque innovador. Sin embargo, esto por sí solo no fue suficiente para expresar emociones intrincadas y estilos de habla. Se desarrolló un algoritmo de aprendizaje no supervisado para identificar estilos de habla y emociones a partir de una vasta base de datos. El entrenamiento se realizó sin etiquetas emocionales, permitiendo al modelo derivar representaciones valiosas de datos de habla. Aunque estas representaciones pueden no ser interpretables por humanos, pueden orientar los algoritmos de texto a voz en la expresión de emociones. Se realizaron avances adicionales al entrenar una red neuronal de percepción para convertir descripciones emocionales en lenguaje natural en representaciones utilizables.

“Con esta tecnología, los usuarios ya no necesitan grabar cientos de estilos de habla o emociones diferentes; el sistema aprende de una amplia base de datos de voces emocionales,” afirma Kim.

Adaptando Características Vocales de Manera Sencilla

Los investigadores lograron con éxito una “sintetización de voz emocional transferible y controlable” utilizando representaciones latentes. Técnicas como el entrenamiento adversarial de dominio y la pérdida de consistencia cíclica permiten separar las características del hablante del estilo de habla. Al analizar una variedad amplia de voces humanas grabadas, el sistema aprende patrones emocionales, tonos e inflexiones. Este método transfiere emociones a un hablante neutral utilizando solo algunas muestras etiquetadas, con la capacidad de controlar la intensidad emocional a través de valores escalares intuitivos.

Esta innovación permite a los usuarios grabar un breve fragmento de voz, aplicando diversas emociones sin alterar su identidad vocal única. Al grabar simplemente cinco minutos de habla, pueden expresar emociones como felicidad, tristeza e ira incluso al hablar de manera normal. La tecnología de Typecast ya ha sido implementada por empresas destacadas como Samsung Securities y LG Electronics, habiendo asegurado $26.8 millones desde su fundación en 2017. Actualmente, Typecast está explorando aplicaciones de sus tecnologías de síntesis de voz en expresiones faciales.

La Importancia del Control en la IA Generativa

En el paisaje mediático en rápida evolución, como señala Kim, la popularidad de los blogs de texto ha ido disminuyendo en favor de videos cortos, lo que obliga a individuos y empresas a producir más contenido de audio y video que nunca. “Una voz expresiva de alta calidad es esencial para transmitir mensajes corporativos,” asegura Kim. La eficiencia en la producción es vital, ya que el trabajo manual de actores humanos suele ser demasiado lento. "El control en la IA generativa es crucial para la creación de contenido. Estas tecnologías permiten a individuos y empresas desbloquear su potencial creativo mientras mejoran la productividad.”

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles