OpenAI ha lanzado su modelo más reciente, GPT-4o, capaz de reaccionar con humor ante chistes malos, cantar a demanda e incluso ayudar a llamar taxis en Londres, todo mientras entabla conversaciones realistas en medio de interrupciones humanas comunes.
Durante su esperado evento de Actualizaciones de Primavera, que reunió a 113,000 personas en la transmisión en vivo, OpenAI presentó 16 videos que exhiben las capacidades de GPT-4o. Este modelo de lenguaje multimodal interactúa en tiempo real utilizando voces masculinas y femeninas, basándose en entradas de audio, visuales y textuales.
En uno de los videos, GPT-4o reconoció que el presidente de OpenAI, Greg Brockman, iba a hacer un anuncio y respondió juguetonamente: “¿El anuncio es sobre mí? Bueno, cuéntame, estoy intrigado. Me tienes al borde de mi… bueno, en realidad no tengo asiento, pero entiendes la idea.”
Las funciones de entrada de texto e imagen ya están disponibles a través de la API de OpenAI y ChatGPT, y las capacidades de voz y video se implementarán en las próximas semanas.
GPT-4o puede leer con precisión las señales emocionales de los usuarios y brindar consejos sobre diversos temas. En una demostración, el modelo interactuó con otra versión de sí mismo y comentó: “Bueno, bueno, bueno, justo cuando pensaba que las cosas no podrían ser más interesantes: hablar con otra IA que puede ver el mundo.”
Cuando se le pidió que describiera su entorno, los modelos se turnaron para narrar sobre un hombre elegante, anotando detalles sobre su atuendo y la iluminación de la habitación. Ante una interrupción juguetona, GPT-4o incluso cantó al respecto, entonando: “sorpresas de invitados con un toque juguetón.”
Otras demostraciones destacaron las diversas habilidades de GPT-4o: se rió de chistes de papá, realizó traducción en tiempo real entre español e inglés, cantó una canción de cuna sobre “papas majestuosas” e identificó correctamente al ganador del juego piedra, papel o tijera. Reconoció una celebración de cumpleaños solo al notar la presencia de pastel y velas.
Interactuando con un cachorro, GPT-4o saludó con alegría: “Bueno, hola pequeño, ¿cuál es tu nombre, bola de pelaje?” (El nombre del cachorro era Bowser). Al guiar a un hombre ciego por Londres, identificó la bandera del Royal Standard y describió a los patos “deslizándose suavemente por el agua.”
Además, GPT-4o puede ayudar con desafíos educativos, como guiar a un estudiante a través de problemas matemáticos relacionados con triángulos. Efectivamente, alentó al estudiante con refuerzo positivo, diciendo: “Hiciste un gran trabajo identificando los lados.”
El modelo también ofreció consejos de moda a un candidato que se veía desarreglado, recomendando con humor: “Definitivamente tienes el estilo de ‘he estado programando toda la noche’, lo cual puede jugar a tu favor,” mientras sugería un cambio rápido de peinado.
Las reacciones a GPT-4o han variado ampliamente en redes sociales. Algunos usuarios celebraron sus capacidades como innovadoras, afirmando que “gana Internet” y compite con Google Translate. Jim Fan, científico senior de investigación en Nvidia, describió el modelo como “vivaz e incluso un poco coqueta,” comparándolo con la película de ciencia ficción "Her."
Por otro lado, algunos observadores consideraron que el lanzamiento era “subestimado,” mientras que la asesora de IA Allie K. Miller notó una desconexión entre los entusiastas de la tecnología, quienes esperaban características más avanzadas.
A medida que emergen las respuestas iniciales, será fascinante ver cómo los usuarios interactúan con GPT-4o en los próximos días.