Ayer, OpenAI causó un gran revuelo antes de la conferencia de desarrolladores I/O de Google al lanzar su último modelo de IA, GPT-4o (abreviatura de GPT-4 Omni). Este potente modelo estará disponible de forma gratuita para usuarios finales como el motor detrás de ChatGPT y como un servicio pago para desarrolladores de software a través de la API de OpenAI, lo que les permitirá crear aplicaciones personalizadas para sus clientes o equipos.
GPT-4o está diseñado como un modelo multimodal, significativamente más rápido, rentable y robusto que sus predecesores, y posiblemente muchos de sus competidores. Este avance es crucial para los desarrolladores de software que desean integrar capacidades de IA en sus aplicaciones. Olivier Godement, Jefe de Producto de API de OpenAI, y el Gerente de Producto Owen Campbell-Moore, explicaron la importancia del modelo durante una conferencia telefónica exclusiva para los medios.
Como señaló Godement, "las computadoras deben adaptarse a la interacción humana en lugar de que nosotros nos adaptemos a las limitaciones técnicas". Con GPT-4o, los desarrolladores pueden mejorar aplicaciones que van desde chatbots de atención al cliente hasta herramientas internas que asisten a los empleados con consultas sobre políticas, gastos y tickets de soporte. La versatilidad de GPT-4o permite a los desarrolladores construir negocios enteros con esta tecnología vanguardista.
Cómo Innova GPT-4o
A diferencia de los modelos anteriores, que requerían configuraciones complejas para manejar interacciones de voz—integrando modelos de audio y texto separados—GPT-4o simplifica el proceso. Procesa diversos medios directamente en tokens, marcando un paso revolucionario hacia una IA verdaderamente multimodal. Esta transición resulta en mejoras de velocidad notables; GPT-4o puede responder a entradas de audio en solo 232 milisegundos, igualando la velocidad de conversación humana, en comparación con los lentos varios segundos de GPT-4.
Además, GPT-4o capta información más matizada de estímulos complejos, mejorando su comprensión de las entradas de los usuarios. Mientras que los modelos anteriores tenían dificultades con las emociones o el contexto en la comunicación verbal, GPT-4o interpreta hábilmente el tono, la dinámica del hablante e incluso expresa emociones a través de sus interacciones. Como explicó Godement, "con un solo modelo, no hay pérdida de señal".
Eficiencia de Costos y Escalabilidad
OpenAI traslada las reducciones de costos operativos a los desarrolladores, fijando el precio de GPT-4o en la mitad de lo que costaba GPT-4—solo $5 por un millón de tokens de entrada y $15 por tokens de salida. El análisis de imágenes también es más económico, haciéndolo más accesible para los desarrolladores. Además, el límite de mensajes ha aumentado de 2 millones a 10 millones de tokens por minuto, mejorando enormemente el rendimiento de las aplicaciones.
“Esta eficiencia es crucial para los desarrolladores”, dijo Campbell-Moore, reconociendo los desafíos previos de velocidad y costos en los LLM (Modelos de Lenguaje Grande). "GPT-4o está destinado a motivar a más desarrolladores a incorporar OpenAI en sus aplicaciones".
Oportunidades de Aplicación Potenciales
GPT-4o puede reemplazar sin esfuerzo los marcos de IA existentes en aplicaciones de terceros, especialmente en aplicaciones de asistencia personal y centradas en el audio. Godement cree que el modelo catalizará la creación de aplicaciones innovadoras centradas en el audio, cambiando fundamentalmente la interacción humano-computadora.
Estándares de Seguridad de Datos
Para los usuarios individuales de ChatGPT, las opciones de retención de datos están disponibles en el menú “Configurar”. En contraste, OpenAI no almacena los datos de los usuarios de la API más allá de 30 días, garantizando la privacidad y seguridad para los desarrolladores de terceros. Las entradas de voz, visuales y textuales se retienen momentáneamente para auditorías de confianza y seguridad, pero se eliminan rápidamente después.
Limitaciones en Comparación de Competidores
Aunque GPT-4o cuenta con capacidades impresionantes, tiene una ventana de contexto de 128,000 tokens—menor que la de competidores como Google Gemini y Llama 3 de Meta, que ofrecen hasta 1 millón de tokens. Sin embargo, esto aún equivale a aproximadamente 300 páginas de texto, proporcionando una capacidad sustancial para interacciones ricas.
Actualmente, GPT-4o está disponible para desarrolladores a través de la API de OpenAI, con funcionalidades limitadas a texto y visión. Las capacidades de audio y video se introducirán pronto, con anuncios a seguir por los canales de OpenAI.