Hoy, en el evento de Actualizaciones de Primavera de OpenAI, la Directora de Tecnología Mira Murati presentó GPT-4o (GPT-4 Omni), un innovador modelo de lenguaje multimodal (LLM) que estará disponible para los usuarios de ChatGPT gratuito en las próximas semanas. Además, se lanzará una nueva aplicación de ChatGPT para escritorio en macOS (con soporte para Windows más adelante), permitiendo a los usuarios acceder a la plataforma más allá de las aplicaciones web y móviles.
"GPT-4o razona utilizando voz, texto y visión", explicó Murati, destacando su capacidad para aceptar y analizar video en tiempo real capturado por los usuarios a través de sus aplicaciones de ChatGPT en smartphones, aunque esta función aún no está disponible públicamente. "Esto parece mágico, y eso es maravilloso, pero queremos desmitificarlo y que lo pruebes tú mismo", añadió.
El nuevo modelo puede responder en audio en tiempo real, detectar el estado emocional de los usuarios a partir de entradas de audio y video, y ajustar su tono vocal para expresar diversas emociones, similar a las ofertas de la startup de IA rival Hume. Durante una demostración, un presentador le pidió a ChatGPT, impulsado por GPT-4o, que narrara una historia con un drama creciente, lo cual ejecutó rápidamente. Se detiene inteligentemente al ser interrumpido y escucha atentamente antes de continuar.
OpenAI compartió videos de demostración que muestran las capacidades de GPT-4o, afirmando que puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, comparable a los tiempos de respuesta conversacional humanos. OpenAI explicó cómo GPT-4o mejora la experiencia del usuario, diciendo: "Antes de GPT-4o, el Modo de Voz implicaba latencias de 2.8 segundos (GPT-3.5) y 5.4 segundos (GPT-4), utilizando tres modelos separados. Esto significaba que la fuente principal de inteligencia—GPT-4—no podía percibir completamente el tono, múltiples hablantes o sonidos de fondo."
Con GPT-4o, todas las entradas y salidas son procesadas por una única red neuronal de extremo a extremo, combinando texto, visión y audio para crear interacciones más ricas. Incluso puede generar múltiples vistas de una imagen, que se pueden transformar en objetos 3D.
Sin embargo, OpenAI no ha anunciado planes para hacer que GPT-4o o alguno de sus modelos más nuevos sean de código abierto. Aunque los usuarios pueden explorar las capacidades del modelo en el sitio web de OpenAI y a través de su API, no tendrán acceso a los pesos del modelo subyacente para personalización—un área de crítica por parte del cofundador Elon Musk.
La introducción de GPT-4o actualiza significativamente la experiencia de ChatGPT gratuito. Anteriormente limitado al modelo solo de texto GPT-3.5, los usuarios gratuitos ahora tendrán acceso a un modelo más avanzado con capacidades mejoradas para analizar imágenes y documentos, navegación web, análisis de datos, GPTs personalizados, y almacenamiento de memoria que retiene preferencias de usuario a través de simples instrucciones.
En una demostración en vivo, los presentadores mostraron a ChatGPT, impulsado por GPT-4o, traduciendo palabras habladas en tiempo real entre italiano e inglés. OpenAI también destacó: "ChatGPT ahora soporta más de 50 idiomas para registro, inicio de sesión y configuración de usuario." Además, GPT-4o sobresale en la comprensión y discusión de imágenes compartidas, y puede crear personajes de arte AI consistentes, algo que muchos generadores de arte AI existentes no han logrado.
Inicialmente, GPT-4o estará disponible para suscriptores de pago, con un lanzamiento gradual para usuarios gratuitos: "Comenzamos con usuarios de ChatGPT Plus y Team, con acceso a Enterprise que vendrá pronto. Los usuarios gratuitos tendrán límites de uso", afirmó OpenAI.
En redes sociales, OpenAI confirmó que "la entrada de texto e imagen" se está implementando en la API hoy, mientras que las capacidades de voz y video se lanzarán en las próximas semanas. La API ofrecerá GPT-4o a la mitad del precio y el doble de la velocidad de GPT-4 Turbo, con límites de llamadas incrementados para desarrolladores externos.
El CEO de OpenAI, Sam Altman, reflexionó sobre la misión evolutiva de la empresa: "Nuestro objetivo era crear IA para el beneficio social, pero ahora parece que desarrollaremos IA que empodere a otros para innovar, beneficiando a todos." En su publicación de blog, Altman señaló: "Nuestra misión principal es proporcionar herramientas de IA poderosas de manera asequible. Estoy orgulloso de que ofrecemos el mejor modelo a nivel mundial de forma gratuita a través de ChatGPT."
La nueva aplicación de escritorio de ChatGPT se lanzará de forma escalonada, comenzando por macOS y luego para Windows. Murati reveló que más de 100 millones de personas utilizan actualmente ChatGPT, con más de 1 millón de GPTs personalizados creados.
A pesar de que el evento duró solo 26 minutos y algunas demostraciones en vivo fueron incómodas, la tecnología que se lanzará pronto promete mejorar la experiencia del usuario, ofreciendo una interfaz más natural y poderosa que las versiones anteriores.