La liberación de código abierto del avanzado modelo de lenguaje de Meta, Llama 2, ha recibido aclamación significativa entre desarrolladores e investigadores, especialmente por su accesibilidad. Este modelo ha inspirado el desarrollo de varios sistemas de IA, incluyendo Vicuna, Alpaca y el propio Llama 2 Long de Meta. Sin embargo, operar Llama 2 puede resultar considerablemente más costoso que utilizar alternativas propietarias. Informes indican que numerosas startups enfrentan costos operativos entre el 50% y el 100% más altos al utilizar Llama 2 en comparación con el GPT-3.5 Turbo de OpenAI, aunque el vanguardista GPT-4 sigue siendo aún más caro. Ambos modelos de lenguaje son fundamentales para ChatGPT.
A veces, la diferencia de costos puede ser asombrosa. Los fundadores de la startup de chatbot Cypher realizaron pruebas utilizando Llama 2 en agosto, incurriendo en un alto costo de $1,200, mientras que las mismas pruebas en GPT-3.5 Turbo solo les costaron $5. Recientemente, OpenAI introdujo un nuevo modelo más económico, GPT-4 Turbo, que opera a un centavo por cada 100 tokens de entrada y es tres veces menos costoso que la versión anterior de 8K de GPT-4. En su evento DevDay, OpenAI incentivó a los desarrolladores a explorar el nuevo modelo ofreciendo $500 en créditos API gratuitos a cada asistente. Aunque Llama 2 proporciona acceso abierto para los usuarios, la significativa diferencia en los gastos operativos puede disuadir a las empresas de adoptarlo.
Entendiendo la Disparidad de Costos
Un factor clave que contribuye a los costos más altos asociados con los modelos de código abierto radica en la infraestructura utilizada por las empresas. OpenAI puede procesar eficientemente millones de solicitudes agrupándolas para un procesamiento simultáneo en chips de alto rendimiento. En contraste, startups como Cypher, que dependen de modelos de código abierto y rentan servidores especializados a través de proveedores de nube, pueden no generar suficiente tráfico para lograr eficiencias similares. Esta disparidad limita su capacidad para aprovechar al máximo las capacidades del servidor.
Los costos operativos asociados con modelos de lenguaje de código abierto pueden fluctuar drásticamente, dependiendo de las tareas específicas realizadas, el volumen de solicitudes y el nivel de personalización requerido. Para tareas sencillas, como la resumación, los costos pueden mantenerse relativamente bajos, mientras que funciones más complejas pueden requerir una mayor inversión.
Bradley Shimmin, analista jefe de IA y análisis de datos, señala que hay poca transparencia sobre las estrategias de gestión de costos empleadas por OpenAI. "OpenAI probablemente se beneficia de economías de escala que no están al alcance de las empresas más pequeñas que intentan alojar modelos extensos en plataformas de nube como AWS o Azure", sugiere.
Una Desalineación de Recursos
En un análisis reciente, Permutable.ai reveló sus costos operativos por utilizar la tecnología de OpenAI, estimando alrededor de $1 millón al año, lo que representa 20 veces el costo de usar modelos internos. Wilson Chan, CEO de Permutable.ai, compara el uso de ChatGPT para tareas menores con usar un "martillo neumático para romper una nuez", efectivo pero excesivamente contundente. Advierte sobre los recursos computacionales y financieros asociados con modelos pesados para tareas rutinarias, subrayando la importancia de alinear la capacidad del modelo de IA con las necesidades prácticas para garantizar la eficiencia de costos.
Explorando Estructuras de Costos
Los gastos operativos de los modelos de lenguaje grande varían significativamente, principalmente según su tamaño. Llama 2 está disponible en varias configuraciones, siendo la más grande de 70 mil millones de parámetros. Los modelos más grandes requieren una potencia de cómputo sustancial para entrenamiento y ejecución, pero a menudo ofrecen un rendimiento mejorado.
Victor Botev, CTO y cofundador de Iris.ai, explica que los parámetros pueden ser optimizados mediante técnicas como la cuantización para reducir costos operativos. Aunque esto puede disminuir los gastos, conlleva el riesgo de afectar la calidad de respuesta, por lo que la decisión debe sopesarse cuidadosamente según las necesidades del usuario.
Para implementaciones locales, los modelos con menos de 100 mil millones de parámetros requieren al menos una caja DGX, cuyo costo ronda los $200,000. El gasto anual en hardware para operar Llama 2 en local puede alcanzar aproximadamente $65,000. En entornos de nube, los costos operativos varían según el tamaño del modelo. Para aquellos con menos de 15 mil millones de parámetros, el gasto mensual es de aproximadamente $1,000, o $12,000 anuales, mientras que para modelos con alrededor de 70 mil millones de parámetros, los costos ascienden a aproximadamente $1,500 al mes, totalizando $18,000 anuales.
La mayoría de los modelos listos para usar rara vez cumplen con los estándares de calidad de las empresas, lo que lleva a la necesidad de varias técnicas de ajuste. El ajuste de indicaciones es el método menos costoso, con precios de $10 a $1,000, mientras que los costos de ajuste de instrucciones oscilan entre $100 y $10,000. El ajuste fino, que modifica atributos fundamentales del modelo, puede ser impredecible, promediando alrededor de $100,000 para modelos más pequeños (1-5 mil millones de parámetros) y alcanzando millones para configuraciones más grandes.
Un Cambio Hacia Modelos Más Pequeños
A la luz de estas consideraciones, la aparición de modelos más pequeños y rentables para aplicaciones específicas ofrece una alternativa prometedora. Variantes de Llama 2 con siete y 13 mil millones de parámetros ya están disponibles, y modelos innovadores como Phi 1.5 de Microsoft y Pythia-1b de EleutherAI están ganando terreno.
Sin embargo, como destaca Lian Jye Su, analista jefe de Omdia, las ofertas de código abierto rara vez son económicas, especialmente cuando se trata de personalización o mejoras. Además, aunque todos los modelos de OpenAI son propietarios, algunas empresas prefieren evitar compartir ingresos a través de licencias o regalías, relegando así el costo del modelo a una prioridad menos crítica.
Anurag Gurtu, CPO de StrikeReady, enfatiza que las startups deben equilibrar los costos del modelo con el retorno potencial de la inversión. "Los modelos de IA pueden fomentar la innovación, mejorar la experiencia del usuario y optimizar las operaciones. A medida que avanzamos, la aparición de modelos más eficientes y soluciones rentables promete hacer que la IA sea más accesible para startups y desarrolladores", predice.
Acceso a Recursos Computacionales
Otro factor significativo que influye en los costos operativos es el acceso al hardware. En el actual panorama competitivo, las empresas están ansiosas por desplegar tecnologías de IA, lo que requiere recursos de cómputo sólidos. Sin embargo, la demanda ha superado la oferta. Nvidia, líder del mercado, informó recientemente una considerable demanda de sus GPUs, con importantes entregas en el segundo trimestre. A medida que competidores como AMD e Intel se preparan con sus propios chips de IA, la necesidad de acceso confiable a potencia de cómputo se vuelve vital.
Con disponibilidad limitada de hardware, las empresas podrían enfrentar costos inflacionarios para cumplir con sus requisitos computacionales. GPUs rentables de proveedores como Hugging Face, NexGen Cloud y AWS están disponibles, pero los intensivos requisitos de modelos como Llama 2 exigen potentes recursos de cómputo.
Tara Waters, directora digital y socia de Ashurst, menciona que la fijación de precios basada en el consumo de modelos públicos puede disuadir a algunas startups de permitir que clientes potenciales exploren y prueben antes de la compra. Si bien la disponibilidad de modelos de código abierto podría aliviar algunos desafíos, también presenta nuevos obstáculos, como la necesidad de una infraestructura adecuada para alojar y desplegar estos modelos eficazmente.
A medida que el panorama evoluciona, están surgiendo estrategias innovadoras para gestionar el consumo y los costos de los modelos de IA. Explorar la ingeniería de indicaciones sin alojar el modelo o desarrollar soluciones intermedias para optimizar la asignación de recursos para consultas repetitivas demuestra la creatividad necesaria para navegar por el actual ecosistema de IA.