En una asociación reciente, la startup de inteligencia artificial Gradient y la plataforma de computación en la nube Crusoe han ampliado la ventana de contexto de los modelos Llama-3 a una impresionante cifra de 1 millón de tokens. La ventana de contexto se refiere al número de tokens de entrada y salida que un modelo de lenguaje grande (LLM) puede manejar, lo cual es esencial para numerosas aplicaciones.
Las empresas tecnológicas y los principales laboratorios de IA están inmersos en una feroz competencia por mejorar las ventanas de contexto de sus LLM. En cuestión de meses, el soporte de tokens ha aumentado de unos pocos miles a más de un millón. Sin embargo, los modelos con amplias ventanas de contexto, como Anthropic Claude (200k tokens), OpenAI GPT-4 (128k tokens) y Google Gemini (1 millón de tokens), están disponibles principalmente en entornos privados.
La Necesidad de LLMs de Código Abierto con Largo Contexto
Gradient colabora con clientes empresariales que buscan integrar LLM en sus operaciones. Incluso antes del lanzamiento de Llama-3, la empresa enfrentó limitaciones importantes de contexto en sus proyectos con clientes. Por ejemplo, los copilotos de codificación, herramientas esenciales para la programación, suelen generar fragmentos cortos de código. Ahora, las empresas desean mejorar estas capacidades para desarrollar módulos de código completos.
"Para lograr esto, el modelo de lenguaje debe hacer referencia a una base de código completa o a múltiples repositorios de GitHub", explicó Leo Pekelis, Científico Jefe de Gradient AI. Proporcionar la base de código completa pieza por pieza sería lento y propenso a inexactitudes, ya que el modelo no accedería a la totalidad de una vez.
“Tener la capacidad de introducir bases de código enteras en el contexto de un modelo de lenguaje resuelve muchas cuestiones, permitiendo soluciones más precisas y eficientes”, añadió Pekelis.
Debido a las restricciones sobre el envío de datos a terceros, muchas empresas no pueden utilizar modelos privados como Gemini o Claude. Esto motivó al equipo de Gradient a desarrollar su propio modelo de código abierto con una ventana de contexto de 1 millón de tokens.
Contribuciones de Investigación Abierta
La comercialización de los LLM ha disminuido la disposición de los laboratorios de IA para compartir descubrimientos e investigaciones. Aunque las empresas continúan ampliando las ventanas de contexto, son menos propensas a divulgar código, datos o estrategias utilizadas para optimizar sus modelos. Sin embargo, la comunidad de investigación abierta sigue comprometida con el intercambio de conocimientos y el avance de modelos. Gradient se benefició en gran medida de las contribuciones de investigación de universidades y centros de todo el mundo.
Utilizando las versiones de 8 y 70 mil millones de parámetros de Llama 3 de Meta, que tienen una ventana de contexto por defecto de 8,000 tokens, implementaron técnicas de Berkeley AI Research que facilitaron longitudes de contexto más largas sin sobrecargar los recursos de memoria y computación. El código inicial provino de un proyecto de código abierto en Singapur, mientras que las fórmulas matemáticas clave se obtuvieron de un laboratorio en Shanghái. Las evaluaciones de rendimiento se realizaron en comparación con puntos de referencia de Nvidia para comparar sus modelos con otros LLM de largo contexto como Gemini.
“Mucho de este progreso no habría sido posible sin la comunidad de investigación abierta", señaló Pekelis. “La investigación abierta influye significativamente en nuestro trabajo en todos los aspectos”.
Superando Desafíos de Computación
El acceso a recursos computacionales es un desafío primordial en la investigación de LLM. La mayoría de los laboratorios de IA dependen de grandes clústeres de GPU para entrenamiento y pruebas. Gradient se asoció con Crusoe para investigar LLM de largo contexto, aprovechando la nube de IA especializada de Crusoe para explorar un desarrollo de modelos rentable.
“El momento fue notable ya que estábamos lanzando un clúster L40S de Nvidia,” dijo Ethan Petersen, Defensor Senior de Desarrolladores en Crusoe. “Nuestro objetivo era demostrar que estos chips facilitan un entrenamiento extenso, no solo inferencia”.
Las grandes empresas tecnológicas compiten por GPUs de gama alta como A100, H100 y la próxima B100, cada una con un costo de decenas de miles de dólares, con clústeres de servidores que suman millones. Crusoe ofrece estas GPUs y personaliza soluciones para sus clientes. Colaborando estrechamente con Gradient, adaptaron el clúster L40S, reduciendo significativamente los costos de entrenamiento.
“Nuestra enfoque con socios como Gradient se centra en ofrecer las soluciones computacionales más eficientes según sus necesidades, y en este caso, el L40S era ideal,” afirmó Patrick McGregor, Director de Productos de Crusoe. “Proporcionamos un gran valor al personalizar nuestras ofertas de computación.”
Pekelis observó que las innovaciones logradas mediante la optimización de la red en el clúster L40S les permitieron entrenar modelos rápidamente, lanzándolos poco después del lanzamiento de Llama-3. Otros proveedores de la nube carecen del mismo nivel de flexibilidad colaborativa, complicando las configuraciones personalizadas.
Técnicas de Evaluación de Modelos
Un punto de referencia crucial utilizado para evaluar las ventanas de contexto largas es la prueba de "la aguja en un pajar", donde se examina una pieza específica de información dentro de una larga secuencia de texto.
“Nuestros modelos logran un rendimiento casi perfecto en esta prueba, efectivo hasta 2 millones de longitud de contexto, comparable solo a lo que he visto con Gemini 1.5 Pro," dijo Pekelis.
Sin embargo, las pruebas de “aguja en un pajar” pueden no retratar completamente el rendimiento general de contexto de un modelo. El equipo también utilizó evaluaciones más complejas, como múltiples “aguas en el pajar” o "aguas adversariales," donde se introduce información contradictoria.
Evaluaron su modelo utilizando el marco de referencia RULER de Nvidia, que incluye 13 tareas diseñadas para evaluar modelos de lenguaje de largo contexto con longitudes y complejidades de secuencia variables. El equipo también está mejorando las capacidades de aprendizaje in-context many-shot, permitiendo que se adapten dinámicamente a nuevas tareas al incluir cientos o miles de ejemplos en el aviso.
Aplicaciones Empresariales de LLM de Largo Contexto
Pekelis cree que los modelos abiertos de largo contexto cerrarán la brecha para las empresas y los desarrolladores que buscan construir aplicaciones basadas en LLM.
“Actualmente, hay una disparidad notable entre las aplicaciones de IA individuales y las soluciones empresariales, que están rezagadas”, señaló. "Permitir que los modelos de lenguaje manejen más información en sus ventanas de contexto abre nuevas posibilidades."
Los contextos más largos pueden potenciar sistemas de agentes—donde varios modelos de lenguaje operan juntos—al procesar mayores cantidades de información con menos solicitudes. Además, los LLM de largo contexto pueden simplificar tareas complejas de procesamiento de datos, como la imitación de estilo.
“En lugar de recopilar y preprocesar datos de varias fuentes para entrenar un modelo que imite mi estilo de escritura, simplemente puedes introducir todos mis correos anteriores, y el modelo aprende a escribir como yo,” explicó Pekelis.
Asimismo, los LLM con amplias ventanas de contexto podrían disminuir la dependencia de la generación aumentada por recuperación (RAG), que requiere recuperar documentos relevantes para cada aviso. Hipotéticamente, un LLM con contexto infinito podría incorporar todos los documentos en el aviso, seleccionando las secciones más relevantes por consulta—aunque aún necesitaría reconsultas para cada nueva sesión de chat debido a limitaciones de contexto.
Ventanas de contexto mejoradas también reducen las barreras para crear prototipos y pruebas de concepto, ayudando a los equipos de producto a entender el potencial de los modelos de lenguaje.
“A menudo, educar a los clientes sobre lo que es posible es un paso inicial crítico,” concluyó Pekelis. “Desarrollar prototipos o ejemplos iniciales ilustra el potencial transformador para las empresas.”