Los modelos de lenguaje grandes (LLMs) han avanzado significativamente en diversos campos, aunque sus capacidades de razonamiento siguen siendo objeto de investigación activa. Estudios recientes han explorado diferentes técnicas de indicación para mejorar las habilidades de resolución lógica de los LLMs.
Un enfoque innovador de investigadores de Meta, llamado Sistema 2 Atención (S2A), integra conceptos psicológicos. S2A refina las indicaciones del usuario al eliminar información engañosa o irrelevante, permitiendo que los LLMs se concentren exclusivamente en datos relevantes para la tarea. Este enfoque mejora la precisión en tareas de respuesta a preguntas y razonamiento.
Experimentos iniciales revelan que los modelos de lenguaje que utilizan S2A muestran mejoras notables, lo que lo convierte en una herramienta valiosa para aplicaciones que requieren capacidades de razonamiento confiables.
LLMs y Razonamiento
El rendimiento de razonamiento de los LLMs muestra variabilidad. Si bien ciertas estrategias de diseño de indicaciones pueden aumentar su eficacia, estos modelos a menudo enfrentan dificultades cuando se enfrentan a contenido irrelevante u opinions en las indicaciones. Por ejemplo, si una indicación incluye una opinión personal o una conjetura, el modelo puede simplemente repetir la entrada del usuario en lugar de proporcionar respuestas precisas.
Esta limitación proviene de los mecanismos de entrenamiento y atención inherentes a los transformadores, la arquitectura utilizada en los LLMs. Los transformadores se centran con fuerza en la predicción del siguiente token, lo que los hace sensibles a la entrada contextual. Si se menciona una entidad en un contexto específico, el modelo tiende a predecir su recurrencia, lo que puede distorsionar los resultados al enfatizar tokens repetidos.
Entendiendo el Sistema 2 Atención
Los investigadores proponen un mecanismo de atención innovador que utiliza LLMs como razonadores en lenguaje natural. “Aprovechamos la capacidad de los LLMs para seguir instrucciones, incitándolos a generar contexto centrado en el material relevante, reduciendo así los sesgos en el razonamiento”, explican.
Al emplear LLMs ajustados a instrucciones para revisar su contexto, S2A elimina efectivamente el texto innecesario, guiando al modelo para priorizar información relevante antes de generar respuestas. El término Sistema 2 Atención proviene del concepto de pensamiento del psicólogo Daniel Kahneman, presentado en su libro Pensar, Rápido y Lento.
El pensamiento del Sistema 1 es rápido e intuitivo, pero puede conducir a sesgos debido a su dependencia de atajos mentales. En contraste, el pensamiento del Sistema 2 es analítico, requiere un mayor esfuerzo cognitivo y procesa información de manera más lógica. El mecanismo S2A busca mitigar los problemas que surgen de los métodos de atención estándar cuando los LLMs abordan tareas de razonamiento.
Según los investigadores, “S2A genera respuestas más factuales y minimiza sesgos en comparación con los LLMs tradicionales basados en atención”.
Cómo Funciona S2A
La técnica S2A consiste en un simple proceso de dos pasos. Primero, S2A modifica el contexto original eliminando partes irrelevantes. Luego, el contexto refinado se pasa al LLM principal para generar su salida.
Existen diversas formas de implementar el primer paso. Los investigadores destacan: “Nuestro enfoque aprovecha LLMs ajustados a instrucciones, hábiles en tareas de razonamiento y generación, lo que nos permite ejecutarlo como un aviso instructivo”.
El uso de LLMs ajustados a instrucciones ofrece un control preciso sobre la atención del modelo según los requisitos de la tarea o el proceso de ajuste fino. Por ejemplo, los investigadores diseñaron una función para enviar un aviso cero-shot, pidiendo al LLM que realizara la tarea S2A solicitada en el aviso original. Este aviso instruye al modelo a regenerar contexto segregando información útil de la consulta para aclarar los pasos de razonamiento.
También introdujeron varias variantes de S2A. Para contextos más cortos o LLMs robustos, puede que no sea necesario dividir el contexto y la pregunta. Simplemente solicitar una reescritura sin partición puede ser suficiente. Otra variante mantiene el aviso original mientras añade la consulta generada por S2A, permitiendo al modelo acceder a ambas versiones.
Los investigadores probaron S2A en diversas tareas, incluyendo respuestas a preguntas, razonamiento extensivo y problemas matemáticos que contenían información irrelevante o engañosa. S2A tiene como objetivo responder preguntas de manera objetiva guiando al modelo a depender de datos que proporcionen las respuestas más precisas.
Resultados y Direcciones Futuras
Los experimentos indican que S2A es resistente a sesgos de opinión y permite a los LLMs desempeñarse casi tan bien como cuando reciben avisos limpios, libres de distracciones. Además, los LLMs equipados con S2A muestran una mayor objetividad en tareas de generación de textos largos.
Sin embargo, los investigadores reconocen que S2A no es infalible; los modelos aún pueden verse influenciados ocasionalmente por correlaciones irrelevantes. Además, S2A incrementa el costo computacional de generar respuestas, ya que introduce pasos adicionales y requiere la extracción de información contextual. Estos aspectos destacan áreas para mejoras futuras, posicionando a S2A como una adición prometedora a las técnicas de razonamiento en las aplicaciones de LLM.