Los desarrolladores de empresas y líderes empresariales inteligentes reconocen que la interfaz de programación de aplicaciones (API) es fundamental para el desarrollo moderno de software, permitiendo que aplicaciones de terceros se conecten sin esfuerzo a plataformas tecnológicas. OpenAI ha realizado recientemente mejoras significativas en su API para el potente modelo de lenguaje GPT-4 Turbo.
La empresa anunció en sus cuentas de X que el modelo GPT-4 Turbo con capacidades visuales está ahora “disponible en general” a través de su API. Las capacidades de visión se introdujeron junto con la posibilidad de subir audio en septiembre de 2023, mientras que el GPT-4 Turbo fue presentado en la conferencia de desarrolladores de OpenAI en noviembre. Esta versión promete un procesamiento más rápido, ventanas de contexto de entrada más amplias (hasta 128,000 tokens—aproximadamente el equivalente a un libro de 300 páginas) y un uso rentable.
Los desarrolladores pueden ahora utilizar las características de reconocimiento y análisis visual del modelo mediante el formato de texto JSON y la invocación de funciones, lo que permite automatizar diversas acciones dentro de aplicaciones conectadas, como enviar correos electrónicos, publicar en línea o realizar compras. OpenAI enfatiza la importancia de implementar flujos de confirmación de usuarios antes de ejecutar acciones que afecten sus entornos.
Un portavoz de OpenAI afirmó que estas mejoras optimizan los flujos de trabajo de los desarrolladores, quienes antes debían utilizar modelos separados para texto e imágenes. Ahora, una sola llamada a la API permite un análisis y razonamiento de imágenes de manera fluida.
OpenAI muestra varios clientes que aprovechan el GPT-4 Turbo con Vision, incluyendo a Cognition, una startup que utiliza el modelo para generar código de manera autónoma, y Healthify, una aplicación de salud y bienestar que ofrece análisis nutricionales y recomendaciones de comidas a partir de fotos enviadas por los usuarios. Además, la startup británica TLDraw utiliza GPT-4 Turbo con Vision para mejorar su pizarra virtual, transformando los dibujos de los usuarios en sitios web funcionales.
A pesar de que GPT-4 Turbo ha enfrentado competencia de modelos más nuevos como Claude 3 Opus de Anthropic, Command R+ de Cohere y Gemini Advanced de Google en pruebas de referencia, el lanzamiento de GPT-4 Turbo con Vision busca atraer a más clientes empresariales y desarrolladores. Este movimiento posiciona a los modelos de OpenAI como una opción atractiva, mientras la industria anticipa el lanzamiento de su próximo modelo de lenguaje.