Los crecientes costos asociados a los grandes modelos de lenguaje (LLMs) que impulsan la inteligencia artificial generativa generan una considerable preocupación en la industria tecnológica. Sin embargo, los modelos más pequeños ofrecen una solución prometedora. “La aparición de LLMs como GPT-4 ha demostrado avances notables en rendimiento, pero estas mejoras también han conllevado a un aumento de costos”, afirmó Adnan Masood, arquitecto principal de IA en UST, en una reciente entrevista. Subrayó que las exigencias computacionales de los LLMs—debido a su tamaño masivo y miles de millones de parámetros—requieren una gran cantidad de energía. Esta alta intensidad computacional resulta en un consumo energético significativo, lo que a su vez incrementa los gastos operativos y plantea preocupaciones ambientales.
“Con tamaños de modelo que frecuentemente superan las capacidades de la memoria de las GPU, la dependencia de hardware especializado o paralelismo complejo de modelos está en aumento, lo que aumenta los costos de infraestructura”, agregó Masood. Destacó que los modelos de lenguaje más pequeños pueden reducir costos y mejorar la eficiencia si se ajustan adecuadamente. Técnicas como la destilación y cuantización de modelos pueden comprimir y optimizar eficazmente estos modelos más pequeños. La destilación consiste en entrenar un modelo más pequeño con las salidas de uno más grande, mientras que la cuantización reduce la precisión de los pesos numéricos del modelo, creando un modelo más pequeño y rápido.
La reducción en el número de parámetros de los modelos más pequeños se traduce directamente en menores requerimientos de potencia computacional, permitiendo inferencias más rápidas y potencialmente entrenamientos más cortos. “Este tamaño compacto permite una integración fluida dentro de la memoria estándar de las GPU, eliminando efectivamente la necesidad de configuraciones de hardware especializado más costosas”, explicó. Esta disminución en uso computacional y de memoria no solo reduce el consumo energético, sino que también disminuye los costos operativos. La utilización de APIs para pruebas de concepto en etapas tempranas o prototipos dentro de cargas de trabajo de producción beneficia aún más a las organizaciones, especialmente debido a los menores costos por token al escalar. Sin embargo, Masood advirtió que depender exclusivamente de los modelos de lenguaje más grandes puede llevar a aumentos exponenciales de costos cuando las aplicaciones experimentan un rápido crecimiento.
Además de reducir el tiempo y costos de entrenamiento, los modelos de lenguaje más pequeños pueden aliviar sustancialmente los gastos en infraestructura en la nube, como destacó Matt Barrington, líder de tecnología emergente de EY para las Américas. Por ejemplo, ajustar un modelo específico de dominio en plataformas en la nube resulta en una menor utilización de recursos. Este cambio permite a las empresas asignar sus recursos de IA de manera más efectiva, enfocándose en áreas que las acercan al usuario final. “Al adoptar modelos de lenguaje compactos en computación en el borde, las empresas pueden disminuir su dependencia de costosos recursos en la nube, lo que resulta en ahorros significativos”, afirmó.
Ya existen ejemplos prometedores de modelos de IA eficientes en despliegue. Modelos recientes como phi-1.5 demuestran capacidades de rendimiento que rivalizan con modelos más grandes como GPT-4, según Masood. Además, modelos especializados como Med-PaLM 2 están diseñados específicamente para el sector salud, y Sec-Palm se enfoca en aplicaciones de seguridad. Modelos como Llama 2 70b también emergen como alternativas rentables, con precios significativamente más bajos que sus competidores, como PaLM 2 de Google, mostrando una reducción notable en comparación con iteraciones anteriores. Es importante destacar que el modelo LLaMA de Meta, con 13 mil millones de parámetros, ha superado al mayor GPT-3 en varias métricas de comparación.
Iniciativas como el desafío BabyLM en la Universidad Johns Hopkins buscan mejorar la efectividad de los modelos más pequeños para competir con los LLMs. Además, Amazon ofrece un mercado para estos modelos compactos que pueden ser adaptados a las necesidades específicas de datos de las empresas. Organizaciones como Anyscale y MosaicML también venden modelos como Llama 2, con 70 mil millones de parámetros, a precios accesibles, destacando un creciente cambio hacia soluciones efectivas y económicas.
A medida que los costos de los grandes modelos de lenguaje continúan aumentando, la urgencia por encontrar alternativas económicamente viables se vuelve cada vez más evidente. El entrenamiento de estos modelos incurre en gastos significativos, especialmente para GPUs como la H100 de Nvidia, cuyo costo puede superar los 30,000 dólares cada una. “Hay una lista de espera para estas GPUs, y algunos capitalistas de riesgo incluso las utilizan para atraer startups buscando financiamiento”, observó Muddu Sudhakar, CEO de Aisera.
Incluso al adquirir GPUs, generar ingresos significativos es crucial para compensar sus altos costos, subrayó Sudhakar. Mencionó un reciente blog de la firma de capital de riesgo Sequoia, que destaca una significativa brecha de monetización que podría obstaculizar el crecimiento del mercado de IA generativa. “Una vez asegurada la GPU, las empresas enfrentan el desafío de reclutar científicos de datos, cuyas compensaciones pueden ser elevadas”, explicó. “Además, operacionalizar los LLMs es costoso debido a las constantes demandas de procesamiento de interacciones, gestión y actualización de modelos, y atención a diversos problemas de seguridad.”
De cara al futuro, Masood prevé que los LLMs ajustados alcancen niveles de rendimiento similares a sus contrapartes más grandes, pero a una fracción del costo. La comunidad de código abierto ya está abordando desafíos prácticos con innovaciones como LongLoRA, que extiende significativamente las ventanas de contexto. “Si las tendencias actuales son un indicativo, pronto podríamos presenciar una síntesis de modelos de código abierto y LLMs más pequeños, formando la base del ecosistema de modelado de lenguaje de próxima generación”, concluyó.