Mejorar los modelos de lenguaje de gran tamaño (LLMs) con conocimientos que exceden sus datos de entrenamiento es crucial para las aplicaciones empresariales. Un enfoque destacado para integrar conocimiento específico del dominio y del cliente en los LLMs es la generación aumentada por recuperación (RAG, por sus siglas en inglés). Sin embargo, los métodos básicos de RAG a menudo son insuficientes.
Construir aplicaciones LLM efectivas que utilicen datos augmentados requiere una cuidadosa consideración de varios factores. En un estudio reciente de investigadores de Microsoft, se propone un marco para categorizar diferentes tipos de tareas de RAG según el tipo de datos externos necesarios y la complejidad del razonamiento involucrado. "Las aplicaciones LLM con datos aumentados no son una solución única para todos", señalan los investigadores. "Las demandas del mundo real, especialmente en dominios especializados, son complejas y pueden variar significativamente en su relación con los datos proporcionados y el razonamiento requerido."
Para navegar esta complejidad, los investigadores sugieren una categorización de cuatro niveles para las consultas de los usuarios:
- Hechos Explícitos: Consultas que requieren la recuperación de hechos directamente afirmados en los datos.
- Hechos Implícitos: Consultas que necesitan inferencias de información no declarada, a menudo implicando razonamiento básico.
- Razonamientos Interpretable: Consultas que demandan entender y aplicar reglas explícitas del dominio a partir de recursos externos.
- Razonamientos Ocultos: Consultas que requieren desentrañar métodos de razonamiento implícitos no expresados en los datos.
Cada nivel de consulta presenta desafíos únicos y requiere soluciones personalizadas.
Categorías de Aplicaciones LLM Aumentadas por Datos
Consultas de Hechos Explícitos
Estas consultas se centran en la recuperación directa de información fáctica explícitamente afirmada en los datos. La característica definitoria es la dependencia directa de piezas específicas de datos externos. Se emplea comúnmente el RAG básico, donde el LLM recupera información relevante de una base de datos para generar una respuesta. Sin embargo, surgen desafíos en cada etapa del proceso de RAG. Por ejemplo, durante la indexación, el sistema RAG debe gestionar grandes conjuntos de datos no estructurados que pueden incluir elementos multimodales como imágenes y tablas. Modelos de análisis y embebido multimodales pueden ayudar a mapear el contexto semántico de elementos textuales y no textuales a un espacio compartido.
En la etapa de recuperación de información, la relevancia de los datos recuperados es crítica. Los desarrolladores pueden alinear consultas con bases de datos de documentos, utilizando respuestas sintéticas para mejorar la precisión de la recuperación. Adicionalmente, en la etapa de generación de respuestas, el ajuste fino permite al LLM discernir información relevante y filtrar el ruido de la base de datos.
Consultas de Hechos Implícitos
Estas consultas requieren que los LLMs razonen más allá de la simple recuperación. Por ejemplo, un usuario podría preguntar: “¿Cuántos productos vendió la empresa X en el último trimestre?” o “¿Cuáles son las principales diferencias entre las estrategias de la empresa X y la empresa Y?” Estas preguntas exigen responder con múltiples saltos, involucrando datos de varias fuentes. La complejidad de las consultas de hechos implícitos exige técnicas avanzadas de RAG, como la Recuperación Intercalada con Cadena de Pensamiento (IRCoT) y el Razonamiento Aumentado por Recuperación (RAT). Los grafos de conocimiento combinados con LLMs también ofrecen un método estructurado para razonamientos complejos, vinculando conceptos dispares de manera efectiva.
Consultas de Razonamiento Interpretable
Estas consultas requieren que los LLMs apliquen reglas específicas del dominio junto con contenido fáctico. “Las consultas de razonamiento interpretable representan una categoría sencilla que depende de datos externos para justificaciones”, explican los investigadores. Este tipo a menudo involucra pautas claras o procesos de pensamiento relevantes para problemas específicos. Un chatbot de servicio al cliente, por ejemplo, puede necesitar integrar protocolos documentados para manejar devoluciones con el contexto del cliente. Integrar estos razonamientos en los LLMs puede presentar desafíos, requiriendo técnicas de ajuste de solicitudes, incluyendo aprendizaje por refuerzo y evaluaciones de solicitudes optimizadas.
Consultas de Razonamiento Oculto
Estas representan el desafío más significativo, ya que involucran métodos de razonamiento incrustados dentro de los datos pero no expresados explícitamente. Por ejemplo, el modelo puede necesitar analizar datos históricos para extraer patrones aplicables a un problema actual. “Navegar consultas de razonamiento oculto… exige técnicas analíticas sofisticadas para decodificar y aprovechar la sabiduría latente incrustada en fuentes de datos dispares”, observan los investigadores.
Las soluciones efectivas para estas consultas pueden involucrar el aprendizaje en contexto para entrenar a los LLMs en la selección y extracción de información relevante. El ajuste fino específico del dominio también puede ser esencial, permitiendo al modelo participar en razonamientos complejos y discernir qué datos externos son necesarios.
Implicaciones para Construir Aplicaciones LLM
La encuesta y el marco de Microsoft Research ilustran la evolución de los LLMs en la utilización de datos externos para aplicaciones prácticas, al mismo tiempo que destacan los desafíos destacados. Las empresas pueden aprovechar este marco para tomar decisiones informadas sobre la integración de conocimientos externos en sus LLMs. Si bien las técnicas de RAG abordan muchas limitaciones de los LLMs básicos, los desarrolladores deben ser conscientes de las capacidades y restricciones de los métodos elegidos, actualizándose a sistemas más sofisticados según sea necesario.