Recientemente, OpenAI anunció una actualización importante: la versión de acceso anticipado (Alpha) del modo de voz GPT-4o ya está disponible para algunos suscriptores de ChatGPT Plus, con planes de un lanzamiento más amplio este otoño. Este avance marca un progreso notable en la integración de tecnologías de procesamiento de lenguaje natural e interacción por voz.
GPT-4o es el último modelo unificado de OpenAI, capaz de procesar entradas textuales, visuales y de audio a través de la misma red neuronal, permitiendo una conectividad fluida. Esta capacidad no solo mejora el rendimiento general del modelo, sino que también ofrece a los usuarios una experiencia conversacional más natural e instantánea.
Mira Murati, CTO de OpenAI, explicó que GPT-4o es el primer intento integral de la empresa para fusionar modalidades textuales, visuales y de audio. Aunque el modelo aún se encuentra en las etapas iniciales de exploración de funcionalidades y evaluación de limitaciones, el equipo se mantiene optimista sobre su potencial y trabaja activamente en optimizaciones.
Originalmente, las pruebas del modo de voz GPT-4o estaban programadas para finales de junio, pero se pospusieron para perfeccionar el modelo. OpenAI ha indicado que están mejorando la capacidad del modelo para detectar y rechazar contenido inapropiado, garantizando así una experiencia de usuario segura y positiva. Gracias a estos esfuerzos, el modo de voz GPT-4o se ha lanzado antes de lo previsto, lo que señala su disponibilidad para un público más amplio.
Comparado con GPT-3.5 y GPT-4, GPT-4o destaca en comunicación por voz. Los datos revelan que el tiempo de respuesta promedio por voz para GPT-3.5 era de 2.8 segundos, mientras que GPT-4 lo extendió a 5.4 segundos, lo que afectó la fluidez conversacional. Sin embargo, con optimizaciones técnicas, GPT-4o ha reducido drásticamente este retraso, logrando una experiencia conversacional casi fluida. También cuenta con respuestas rápidas y un tono altamente realista, capaz de percibir y simular emociones como la tristeza y la excitación, enriqueciendo la vitalidad del diálogo.
A medida que OpenAI promueve el modo de voz GPT-4o, enfatiza su compromiso con la privacidad y seguridad del usuario. La portavoz de la empresa, Lindsay McCallum, declaró que ChatGPT nunca imitará la voz de ninguna persona o figura pública, y la salida que no coincida con las voces preestablecidas está estrictamente restringida para proteger los derechos y la privacidad del usuario.
Con la introducción del modo de voz GPT-4o, OpenAI tiene como objetivo continuar liderando la innovación en tecnología de inteligencia artificial, ofreciendo experiencias de interacción por voz más inteligentes, convenientes y seguras.