El tan esperado día ha llegado: ChatGPT está evolucionando hacia una experiencia de IA más cercana y personal, capaz de compartir una risa ante un comentario gracioso o responder con un “aww” cuando muestras amabilidad. Estas características son solo el comienzo de los emocionantes anuncios de hoy de OpenAI. En el reciente Evento de Actualización de Primavera, la empresa presentó su último modelo de lenguaje grande (LLM), GPT-4o. Esta actualización no solo trae una aplicación de escritorio para ChatGPT, sino que también mejora la velocidad y el rendimiento, haciéndolo completamente multimodal.
El evento comenzó con una introducción de Mira Murati, CTO de OpenAI, quien destacó que las mejoras de hoy beneficiarán a todos los usuarios. "Lo que hace especial a GPT-4o es que proporciona inteligencia al nivel de GPT-4 a todos los usuarios, incluidos aquellos en el nivel gratuito", explicó Murati.
GPT-4o promete una mayor velocidad y avances significativos en capacidades textuales, visuales y de audio. Los desarrolladores también podrán utilizar este modelo a través de sus APIs. Se reporta que es hasta dos veces más rápido y 50% más rentable, con un límite de tasa cinco veces superior al de GPT-4 Turbo.
Además del nuevo modelo, OpenAI lanzará la aplicación de escritorio de ChatGPT y refrescará la interfaz del sitio web. El objetivo es simplificar las interacciones con el chatbot. "Imaginamos un futuro en el que nuestra comunicación con las máquinas sea más intuitiva, y GPT-4o es un paso clave para mejorar esa colaboración", afirmó Murati.
Durante el evento, Murati, junto con Mark Chen y Barret Zoph de OpenAI, demostraron cómo las nuevas características hacen que las interacciones sean más fluidas. GPT-4o puede analizar videos, imágenes y audio en tiempo real mientras interpreta emociones con precisión—particularmente destacado en la voz de ChatGPT, que se ha vuelto sorprendentemente realista, casi superando el valle inquietante.
Un simple “hola” a ChatGPT provoca una respuesta animada y amistosa con un toque de tono robótico. Cuando Mark Chen mencionó la necesidad de relajarse durante una demostración en vivo, la IA no solo reconoció su solicitud, sino que también le aconsejó que respirara profundamente. Detectó con precisión cuando él estaba respirando demasiado rápido, sugiriendo juguetonamente: “No eres una aspiradora”.
Presentando GPT-4o
Las conversaciones con ChatGPT ahora se sienten más naturales; los usuarios pueden interrumpir sin esperar a que la IA termine su respuesta, que llega rápidamente sin demoras incómodas. Al pedir un cuento para dormir, cambió hábilmente de tono de entusiasta a dramático y luego a robótico según se solicitó. La parte final de la demostración destacó las capacidades de ChatGPT para leer código, resolver problemas matemáticos a través de video y describir el contenido en pantalla.
Aunque la demostración no fue perfecta —con el bot cortándose ocasionalmente, dejando la duda de si fue por ruido externo o latencia— alcanzó un nivel de realismo previamente inalcanzable en las interacciones con chatbots. Su capacidad para leer emociones humanas y reaccionar en consecuencia es tanto emocionante como un poco inquietante. Escuchar reír a ChatGPT fue sin duda un momento inesperado.
El lanzamiento de GPT-4o, que presenta sus funciones multimodales y la nueva aplicación de escritorio, comenzará en las próximas semanas. No hace mucho, Bing Chat expresó su deseo de parecer más humano, pero ahora estamos a las puertas de experimentar una versión de ChatGPT que podría ser la más cercana a la interacción humana desde el surgimiento de la IA.