WellSaid Labs, líder en tecnología de voz con inteligencia artificial (IA), ha lanzado una herramienta innovadora que permite a los usuarios dirigir las interpretaciones de voz de IA con mayor naturalidad y matices. Esta nueva función, denominada HINTS (Discurso Natural Altamente Intuitivo Personalizado), empodera a los creadores de contenido para personalizar voces de IA utilizando anotaciones contextuales, como ajustes de tempo y volumen, de manera similar a como trabaja un director de cine.
Michael Petrochuk, cofundador y CTO de WellSaid Labs, compartió en una entrevista exclusiva: “Nuestros clientes han expresado su deseo de tener un mayor control sobre las salidas vocales de nuestra IA. Nuestro objetivo era crear un sistema que fuera intuitivo y natural, permitiendo que nuestro modelo prediga actuaciones auténticas basadas en el contexto del usuario, para que los creativos puedan realizar su visión artística”.
HINTS representa un cambio con respecto a los métodos tradicionales que dependen de lenguajes de marcado rígidos o simples indicaciones para controlar voces de IA. Esta nueva tecnología permite ajustes detallados e intercalables, como modificar un pasaje específico para que sea un 0.7x más lento o aumentar el volumen en 5 dB, mientras la voz de IA responde de manera fluida. Su conciencia contextual permite a los usuarios superponer y anidar anotaciones a lo largo de extensos guiones.
“El sistema utiliza datos humanos reales (obtenidos con consentimiento) para sus salidas de audio, haciendo que sus verbalizaciones anotadas sean tan realistas como aquellas sin anotaciones”, explicó Petrochuk. “Notablemente, descubrimos que el modelo no solo utiliza de manera efectiva un único conjunto de datos, sino que también puede generalizar las actuaciones de múltiples hablantes para mejorar su prosodia. Este hallazgo superó nuestras expectativas y resalta el potencial para futuras investigaciones”.
HINTS responde a la demanda de herramientas de voz de IA altamente personalizables y centradas en el director, transformando el contenido basado en voz para audiolibros, módulos de capacitación, videos de marketing y más. Las evaluaciones iniciales indican mejoras en precisión y naturalidad.
La investigación también prioriza prácticas de IA responsables y éticas. “Desde el principio, hemos estado comprometidos con la innovación ética”, destacó Petrochuk. WellSaid garantiza el consentimiento explícito de los contribuyentes vocales, protege la privacidad y modera el contenido para prevenir abusos.
A medida que la IA vocal se integra cada vez más en la tecnología de consumo y el entretenimiento, HINTS ejemplifica cómo esta tecnología puede servir como un medio de narración empático en lugar de ser solo una herramienta vocal. Aunque aún existen limitaciones en comparación con el talento humano, innovaciones como HINTS nos acercan a lograr voces sintéticas verdaderamente expresivas.