La tecnología revolucionaria de Typecast permite que la inteligencia artificial generativa exprese emociones humanas.

Home Noticias de IA La tecnología revolucionaria de Typecast permite que la inteligencia artificial generativa exprese emociones humanas.

Updated on noviembre 1 2024

El lenguaje es fundamental para la interacción humana, al igual que la emoción que lo acompaña. Expresar emociones como la felicidad, la tristeza, la ira y la frustración enriquece nuestros mensajes y profundiza nuestras conexiones. Aunque la IA generativa ha avanzado en diversas áreas, a menudo enfrenta dificultades con las sutilezas de la emoción humana. Typecast, una innovadora startup, busca cambiar esto con su nueva tecnología de Transferencia de Emoción entre Hablantes. Esta función permite a los usuarios incorporar emociones capturadas de la voz de otros en sus propias grabaciones, preservando su estilo vocal único. Este avance simplifica la creación de contenido y está disponible a través de My Voice Maker de Typecast.

“Los actores de IA aún no han logrado captar completamente la gama emocional de los humanos, lo cual es su mayor limitación”, afirma Taesu Kim, CEO y cofundador de Neosapience y Typecast. Con la Transferencia de Emoción entre Hablantes de Typecast, "cualquiera puede usar actores de IA con una profundidad emocional genuina a partir de solo una pequeña muestra de voz".

Descodificando la Emoción

Las emociones humanas típicamente se clasifican en siete categorías: felicidad, tristeza, ira, miedo, sorpresa y disgusto, basadas en expresiones faciales universales. Sin embargo, estas categorías son insuficientes para transmitir el espectro completo de emociones en el habla generada. Hablar no es simplemente una traducción directa de texto a voz. “Los humanos pueden transmitir la misma frase de innumerables maneras,” explica Kim en una entrevista exclusiva. Diferentes emociones pueden expresarse dentro de la misma frase e incluso la misma palabra. Por ejemplo, preguntar “¿Cómo puedes hacerme esto?” puede hacerse de maneras completamente diferentes, según el tono emocional: desde decepción hasta ira. Incluso emociones complejas, como “Tan triste porque su padre falleció, pero mostrando una sonrisa,” resisten una categorización singular. Los investigadores, incluido Kim, destacan que la capacidad de transmitir diversas emociones enriquece las conversaciones.

Limitaciones de la Tecnología de Texto a Voz Emocional

La tecnología de texto a voz ha avanzado rápidamente, especialmente a través de modelos como ChatGPT, LaMDA, LLama y Bard. Sin embargo, lograr un texto a voz emocional sigue siendo un desafío. Esto a menudo requiere grandes volúmenes de datos etiquetados, difíciles de adquirir. Grabar los matices de diversas emociones ha sido un proceso tradicionalmente laborioso. "Es increíblemente difícil grabar frases extensas mientras se preserva la emoción de manera constante," observa Kim.

En la síntesis de voz emocional convencional, cada dato de entrenamiento debe tener una etiqueta emocional, a menudo requiriendo codificación adicional o audio de referencia. Esto se convierte en un problema cuando no hay datos disponibles para cada emoción o hablante, lo que lleva a errores de etiquetado y dificultades en la captura de la intensidad emocional. La transferencia de emociones entre hablantes presenta desafíos adicionales, especialmente al asignar emociones no vistas a diferentes locutores. La tecnología actual a menudo produce resultados poco naturales cuando hablantes neutrales intentan generar un habla emocional.

Innovación con Redes Neuronales Profundas y Aprendizaje No Supervisado

Para abordar estos desafíos, los investigadores incorporaron etiquetas de emoción en una red neuronal profunda generativa, representando un enfoque innovador. Sin embargo, esto por sí solo no fue suficiente para expresar emociones intrincadas y estilos de habla. Se desarrolló un algoritmo de aprendizaje no supervisado para identificar estilos de habla y emociones a partir de una vasta base de datos. El entrenamiento se realizó sin etiquetas emocionales, permitiendo al modelo derivar representaciones valiosas de datos de habla. Aunque estas representaciones pueden no ser interpretables por humanos, pueden orientar los algoritmos de texto a voz en la expresión de emociones. Se realizaron avances adicionales al entrenar una red neuronal de percepción para convertir descripciones emocionales en lenguaje natural en representaciones utilizables.

“Con esta tecnología, los usuarios ya no necesitan grabar cientos de estilos de habla o emociones diferentes; el sistema aprende de una amplia base de datos de voces emocionales,” afirma Kim.

Adaptando Características Vocales de Manera Sencilla

Los investigadores lograron con éxito una “sintetización de voz emocional transferible y controlable” utilizando representaciones latentes. Técnicas como el entrenamiento adversarial de dominio y la pérdida de consistencia cíclica permiten separar las características del hablante del estilo de habla. Al analizar una variedad amplia de voces humanas grabadas, el sistema aprende patrones emocionales, tonos e inflexiones. Este método transfiere emociones a un hablante neutral utilizando solo algunas muestras etiquetadas, con la capacidad de controlar la intensidad emocional a través de valores escalares intuitivos.

Esta innovación permite a los usuarios grabar un breve fragmento de voz, aplicando diversas emociones sin alterar su identidad vocal única. Al grabar simplemente cinco minutos de habla, pueden expresar emociones como felicidad, tristeza e ira incluso al hablar de manera normal. La tecnología de Typecast ya ha sido implementada por empresas destacadas como Samsung Securities y LG Electronics, habiendo asegurado $26.8 millones desde su fundación en 2017. Actualmente, Typecast está explorando aplicaciones de sus tecnologías de síntesis de voz en expresiones faciales.

La Importancia del Control en la IA Generativa

En el paisaje mediático en rápida evolución, como señala Kim, la popularidad de los blogs de texto ha ido disminuyendo en favor de videos cortos, lo que obliga a individuos y empresas a producir más contenido de audio y video que nunca. “Una voz expresiva de alta calidad es esencial para transmitir mensajes corporativos,” asegura Kim. La eficiencia en la producción es vital, ya que el trabajo manual de actores humanos suele ser demasiado lento. "El control en la IA generativa es crucial para la creación de contenido. Estas tecnologías permiten a individuos y empresas desbloquear su potencial creativo mientras mejoran la productividad.”

Dell y Hugging Face se Unen para Optimizar el Despliegue de Modelos de Lenguaje de Gran Tamaño

Cómo la IA Generativa Está Transformando el Futuro de la Gestión de Identidad y Acceso

Most people like

Rozetta

101.5K

Desbloqueando el Potencial de las Soluciones de Traducción AI para las Necesidades Diversas de Su Negocio En el mundo interconectado de hoy, la comunicación efectiva es esencial para el éxito empresarial. Las soluciones de traducción basadas en IA están transformando la forma en que las empresas operan al derribar barreras lingüísticas y facilitar interacciones fluidas entre culturas. Ya sea que esté expandiéndose a nuevos mercados, colaborando con socios internacionales o brindando apoyo a una base de clientes global, aprovechar la tecnología de traducción avanzada puede mejorar sus operaciones y fomentar el crecimiento. Descubra cómo estas soluciones innovadoras pueden satisfacer sus requisitos comerciales únicos y elevar su estrategia de comunicación.

Traducción de IA Translate

Netcapz

9.5K

Netcapz es una plataforma innovadora impulsada por IA, diseñada para mejorar el servicio al cliente mediante interacciones personalizadas que resuenan con los usuarios.

IA AI Advertising Assistant

88stacks

181.1K

88stacks es un generador de imágenes de IA de vanguardia diseñado para producir una amplia variedad de impresionantes imágenes generadas por IA. Ya sea que desees crear obras de arte, ilustraciones o visuales únicos, 88stacks utiliza tecnología avanzada para transformar tus ideas en imágenes cautivadoras.

Generador de imágenes por IA AI Art Generator

AutoFunnel

31.6K

Revoluciona tu presencia en línea con nuestro creador de sitios web impulsado por IA, diseñado específicamente para crear embudos de ventas de alta conversión.

Constructor de sitios web de IA AI Content Generator

Find AI tools in YBX