El Modo de Voz Avanzado de ChatGPT se lanzó el martes para suscriptores selectos de OpenAI como parte de su esperada versión alfa. Anunciada originalmente en mayo, esta función revoluciona la interacción al ir más allá del diálogo tradicional basado en texto, permitiendo a los usuarios comunicarse mediante un lenguaje natural y hablado, con calidad casi humana. Soporta una variedad de acentos regionales y lenguas. Según OpenAI, el Modo de Voz Avanzado busca ofrecer “conversaciones más naturales en tiempo real, permitiendo interrupciones en cualquier momento y respondiendo a las emociones de los usuarios.”
Sin embargo, existen algunas limitaciones en el uso del Modo de Voz. El sistema cuenta con cuatro voces preestablecidas y no puede imitar las voces de usuarios individuales o figuras públicas, bloqueando automáticamente las salidas que se apartan de estos presets. Además, el Modo de Voz Avanzado no está diseñado para crear audio protegido por derechos de autor ni producir música. Curiosamente, algunos usuarios han experimentado pidiendo a la IA que haga beatboxing.
Ethan Sutin, un tester alfa, compartió un hilo en X (anteriormente Twitter) mostrando diversas respuestas del Modo de Voz Avanzado, incluyendo un breve “rap de cumpleaños” y una demostración de beatboxing. Los usuarios pueden escuchar la respiración digital de la IA entre los ritmos. Aunque no puede crear canciones completas, la IA añade impresionantes efectos de sonido a los cuentos para dormir, mejorando la experiencia de narración. Por ejemplo, genera choques y estruendos apropiados durante una historia sobre un cyborg rebelde, cuando se le solicita crear una atmósfera envolvente.
El Modo de Voz Avanzado también puede generar personajes realistas de forma espontánea, aumentando su calidad vívida. Los usuarios pueden pedirle a la IA que hable en diferentes tonos y lenguas, añadiendo profundidad a sus interacciones.
Las capacidades vocales de la IA van más allá de los idiomas humanos. Por ejemplo, cuando se le indica, el Modo de Voz Avanzado puede imitar con precisión los sonidos de los gatos. Los usuarios pueden interactuar con la IA haciendo preguntas sobre sus mascotas, recibiendo consejos y sugerencias personalizadas en tiempo real.
Además, el Modo de Voz Avanzado puede utilizar la cámara de tu dispositivo para respaldar esfuerzos de traducción. En una ocasión, un usuario apuntó su teléfono a un juego de GameBoy Advance de Pokémon en japonés, permitiendo que la IA leyera el diálogo en pantalla mientras jugaban. Aunque las funciones de video y pantalla compartida no forman parte de la versión alfa, OpenAI planea introducirlas pronto. La compañía prevé expandir la versión alfa a más suscriptores Plus en las próximas semanas, con un lanzamiento completo programado para este otoño.