OpenAI está ampliando su alcance más allá de la generación de texto, imágenes y videos con un avance significativo en la tecnología de audio: la clonación de voz. Hoy, la empresa anunció su último modelo de IA, el “Voice Engine”. En desarrollo desde 2022, este modelo impulsa la API de texto a voz de OpenAI, además de las nuevas funcionalidades de Voz y Leer en Voz Alta de ChatGPT, presentadas a principios de este mes.
Cómo Funciona la Clonación de Voz
El Voice Engine puede crear clones de voz realistas al permitir que un hablante humano grabe un clip de audio de 15 segundos a través de un micrófono de teléfono o computadora. La IA luego genera un discurso natural que se asemeja al hablante original, permitiendo a los usuarios convertir cualquier texto escrito en palabras habladas.
Implicaciones para el Mercado de Audio Hablado
Esta tecnología tiene un enorme potencial para quienes hablan en público con frecuencia, incluidos podcasters, artistas de voz en off, narradores de audiolibros, gamers y representantes de servicio al cliente. Además, desafía a empresas competidoras en este ámbito, como ElevenLabs, Captions, Meta, WellSaid Labs y MyShell. OpenAI también destaca la capacidad del Voice Engine para ayudar a personas no verbales al proporcionar voces únicas y no robóticas, lo que puede ser fundamental en entornos terapéuticos y educativos para quienes tienen discapacidades del habla o desafíos de aprendizaje.
Casos de Uso Iniciales
En su anuncio, OpenAI mencionó que el Voice Engine está actualmente accesible a un pequeño grupo de socios de confianza, que incluyen:
- Age of Learning: Utiliza Voice Engine y GPT-4 para crear contenido de voz personalizado para diversas audiencias estudiantiles.
- HeyGen: Emplea la tecnología para la traducción de videos, creando avatares personalizados con voces multilingües realistas para mejorar la comunicación global.
- Dimagi: Integra Voice Engine para ofrecer retroalimentación interactiva y multilingüe a trabajadores de salud comunitaria, mejorando la prestación de servicios en áreas remotas.
- Livox: Mejora su aplicación de comunicación aumentativa y alternativa (AAC) con Voice Engine, proporcionando voces únicas para personas con discapacidades del habla y audición.
- Norman Prince Neurosciences Institute en Lifespan: Utiliza la tecnología para ayudar a pacientes con discapacidades del habla, notablemente restaurando la voz de un paciente con un tumor cerebral a partir de una muestra de audio previa.
OpenAI ha proporcionado muestras de audio que demuestran las capacidades de la tecnología, incluyendo una comparación entre la voz original de un paciente y la versión clonada utilizando el Voice Engine.
Acceso Limitado y Despliegue Cauteloso
Por ahora, el Voice Engine no está disponible para el público general. OpenAI comparte información y resultados de una previa a pequeña escala exclusivamente con sus socios de confianza. La empresa declaró: “Estamos adoptando un enfoque cauteloso e informado para una liberación más amplia debido al potencial de mal uso de la voz sintética”. OpenAI busca iniciar discusiones sobre el uso responsable de las voces sintéticas y evaluar cómo la sociedad puede adaptarse a estos avances.
El enfoque de OpenAI para lanzar el Voice Engine es coherente con los recientes llamados a regular la suplantación de voces por IA. Para asegurar un uso ético, los socios que prueban la tecnología deben cumplir con políticas estrictas que prohíben la suplantación no autorizada y requieren el consentimiento informado de los donantes de voz. Además, OpenAI está implementando medidas de seguridad, incluyendo marcas de agua y monitoreo proactivo, para promover un uso responsable de la tecnología.