El presidente de OpenAI, Greg Brockman, compartió recientemente lo que parece ser la primera imagen pública generada por el nuevo modelo GPT-4o de la compañía en su cuenta de X. La imagen muestra a una persona con una camiseta negra adornada con el logo de OpenAI, escribiendo en una pizarra. El texto dice: “Transferencia entre modalidades. Supongamos que modelamos directamente P (texto, píxeles, sonido) con un gran transformador autorregresivo. ¿Cuáles son los pros y los contras?”
El modelo GPT-4o, lanzado el lunes, mejora a la anterior familia GPT-4 (que incluye GPT-4, GPT-4 Vision y GPT-4 Turbo) al ofrecer un procesamiento más rápido, costos reducidos y una mejor retención de información de diversas entradas, como audio y visuales.
El enfoque innovador de OpenAI en el entrenamiento de GPT-4o con tokens multimedia elimina la necesidad de convertir primero los datos de audio y visuales en texto. Esto permite al modelo analizar e interpretar directamente estos formatos, resultando en una operación más fluida y eficiente en comparación con los modelos anteriores de GPT-4, que dependían de múltiples modelos interconectados.
Comparar la nueva imagen con las generadas por DALL-E 3 de OpenAI—lanzado en septiembre de 2023—destaca mejoras significativas en calidad, fotorealismo y precisión del texto con el modelo GPT-4o. Actualmente, las capacidades nativas de generación de imágenes de GPT-4o no están disponibles públicamente. Como mencionó Brockman en su publicación: “El equipo está trabajando arduamente para llevar eso al mundo.”