En los últimos años, los modelos de lenguaje de gran tamaño (LLMs) han evolucionado de procesar unas pocas cientos de palabras a gestionar contenido equivalente a varios libros simultáneamente. Esta capacidad ampliada de entrada, conocida como "ventana de contexto", está desbloqueando nuevas aplicaciones y casos de uso que anteriormente requerían un esfuerzo de ingeniería significativo.
Un estudio reciente realizado por investigadores de Google DeepMind investiga las capacidades de aprendizaje en contexto “multi-shot” (ICL) de los LLMs con ventanas de contexto ampliadas. Los hallazgos indican que al incluir cientos o miles de ejemplos de entrenamiento en un solo aviso, se puede mejorar significativamente el rendimiento del modelo; anteriormente, tales mejoras requerían ajuste fino.
ICL de Few-shot vs. Many-shot
El ICL permite a los LLMs aprender nuevas tareas utilizando ejemplos presentados durante la inferencia. Implica proporcionar al modelo un aviso que contenga varios ejemplos resueltos junto con el problema a abordar. Tradicionalmente, este tipo de aprendizaje ha sido denominado "aprendizaje de pocos ejemplos" (few-shot learning).
A diferencia del ajuste fino, que ajusta los parámetros del modelo, el ICL es más accesible; sin embargo, estaba limitado por la ventana de contexto del modelo. Por ejemplo, GPT-3 soportaba una ventana de contexto de aproximadamente 2,000 tokens, lo que restringía la cantidad de ejemplos que podían incluirse en un aviso.
Sin embargo, los modelos actuales pueden manejar más de 100,000 tokens, y modelos como Gemini 1.5 Pro pueden procesar más de un millón de tokens, permitiendo la inclusión de cientos o miles de ejemplos en cada aviso.
En su estudio, los investigadores de DeepMind examinaron el impacto del ICL de muchos ejemplos en el rendimiento de los LLMs en diversas tareas, incluyendo la resolución de problemas matemáticos, respuestas a preguntas, modelado de recompensas, traducción de lenguajes de bajo recurso, planificación y análisis de sentimientos. Algunos avisos contenían hasta 8,192 ejemplos de ICL, y los resultados demostraron que el rendimiento mejoraba al agregar más ejemplos. Durante las tareas de traducción, el ICL de muchos ejemplos en Gemini Pro logró resultados récord en kurdo y tamil. En tareas de resumen, el rendimiento de ICL coincidió con el de modelos especializados ajustados, alcanzando una efectividad óptima solo cuando los ejemplos en contexto se ampliaron a cientos de miles de tokens.
ICL Reforzado y No Supervisado
Un desafío principal del ICL de muchos ejemplos es la necesidad de grandes volúmenes de ejemplos de alta calidad generados por humanos, particularmente en tareas de razonamiento. Los investigadores proponen dos estrategias para mitigar la dependencia de datos generados por humanos.
La primera técnica, "ICL reforzado", sustituye los ejemplos creados por humanos con racionales generados por el modelo. El LLM crea múltiples racionales para un problema específico utilizando un aviso de cadena de pensamiento de pocos o cero ejemplos. Una vez validadas a través de mecanismos que confirman las respuestas correctas, estas respuestas forman un conjunto de datos de ICL que comprende pares problema/rACIONAL.
El segundo método, "ICL no supervisado", aprovecha el conocimiento innato del modelo sobre el problema. Este enfoque implica un aviso que contiene una lista de problemas no resueltos junto con un aviso de cero o pocos ejemplos para un problema objetivo, eliminando la necesidad de respuestas creadas por humanos. Los investigadores hipotetizan que cuando el LLM tiene el conocimiento necesario para resolver una tarea, proporcionar un contexto relevante lo ayuda a enfocarse en los conceptos internos necesarios para la resolución de problemas.
Los investigadores confirman que tanto los racionales generados por el modelo como los avisos con solo problemas pueden reducir la dependencia de ejemplos generados por humanos.
Adaptación del Comportamiento del Modelo
El estudio también reveló que el ICL de muchos ejemplos puede superar sesgos de pre-entrenamiento y aprender de manera efectiva tareas de predicción no natural que el ICL de pocos ejemplos podría enfrentar dificultades. Por ejemplo, los investigadores alteraron las etiquetas de un conjunto de datos de análisis de sentimientos para contradecir los sesgos de sentimiento que el LLM había adquirido durante el entrenamiento, y sus experimentos demostraron que al añadir más ejemplos de ICL, el rendimiento mejoró dramáticamente, casi alcanzando el de las etiquetas predeterminadas.
Además, el ICL de muchos ejemplos se utilizó con éxito para reconfigurar el modelo para clasificación lineal y paridad secuencial, tareas que suelen ser desafiantes sin un entrenamiento específico. Esto destaca el potencial del aprendizaje de muchos ejemplos para adaptarse a nuevas tareas y dominios que pueden no alinearse con los datos de entrenamiento de un LLM.
Implicaciones para las Empresas
A medida que los laboratorios de IA trabajan para extender las ventanas de contexto de los LLMs, algunos expertos argumentan que el ajuste fino y otras técnicas, como la generación aumentada por recuperación (RAG), pueden no ser ya necesarias. Las empresas podrían simplemente crear avisos con información relevante, ejemplos e instrucciones de tarea.
Sin embargo, el ICL de muchos ejemplos no es actualmente escalable. Para aplicaciones de LLM que reciben decenas de millones de solicitudes diariamente, extender cada aviso por unos pocos cientos de ejemplos podría impactar significativamente la velocidad y los costos de inferencia.
Así, el ICL de muchos ejemplos puede servir como una herramienta valiosa durante las fases exploratorias y de prototipado de aplicaciones de LLM, permitiendo a los desarrolladores experimentar con diversas técnicas de ingeniería de avisos sin las restricciones de la ventana de contexto. No obstante, la escalabilidad eficiente de los productos dependerá de minimizar el consumo de tokens y utilizar modelos más pequeños, rápidos y rentables.