Investigadores del Laboratorio de Escalamiento de Inteligencia de la Universidad de Stanford han presentado un nuevo marco de inferencia llamado Archon, diseñado para mejorar la eficiencia de los modelos de lenguaje grandes (LLMs) en la generación de respuestas. Archon utiliza un algoritmo de búsqueda de arquitectura en tiempo de inferencia (ITAS) que optimiza el rendimiento de los LLM sin requerir entrenamiento adicional. Este marco, independiente del modelo y de código abierto, es fácilmente implementable tanto en modelos grandes como pequeños.
Archon busca ayudar a los desarrolladores a crear sistemas de inteligencia artificial al aprovechar diversas técnicas de inferencia para agilizar la generación de respuestas. Según el Laboratorio de Escalamiento de Inteligencia, estas técnicas pueden reducir significativamente los costos asociados con el desarrollo y la inferencia del modelo. A medida que los LLM evolucionan hacia parámetros más grandes y razonamiento más sofisticado, los gastos pueden aumentar, a pesar de las expectativas de empresas como OpenAI de una mayor asequibilidad.
Los investigadores enfatizan que Archon crea automáticamente arquitecturas que mejoran la generalización de tareas, permitiendo a los modelos abordar desafíos más allá de su ámbito de entrenamiento original. "Nuestro marco Archon y el algoritmo ITAS están inspirados en arquitecturas neuronales y prácticas de búsqueda de arquitecturas", explicaron. "Archon consta de capas de LLM, donde los modelos dentro de la misma capa operan en paralelo, mientras que cada capa subsiguiente procesa los resultados secuencialmente."
Estas capas emplean diversas técnicas de inferencia para modificar las respuestas candidatas, utilizando tanto generación y fusión (como transformaciones lineales) como refinamiento de respuestas (como no linealidades).
En pruebas de referencia, incluyendo MT-Bench, Arena-Hard-Auto, Alpaca-2.0 Eval, MixEval, MixEval Hard, MATH y CodeContests, Archon superó a GPT-4o y Claude 3.5 Sonnet por 15.1 puntos porcentuales, así como a modelos de LLM de código abierto por 11.2 puntos porcentuales.
Componentes de Archon
El algoritmo ITAS consta de varios componentes clave que ejecutan técnicas de inferencia:
1. Generador: Genera respuestas potenciales para el modelo.
2. Fusionador: Combina estas respuestas en una respuesta cohesiva. Por ejemplo, al preguntar por la capital de Francia, sintetiza respuestas como “la capital de Francia es París” y “Francia está en Europa” en una sola declaración: “La capital de Francia, un país en Europa, es París.”
3. Clasificador: Clasifica las respuestas generadas.
4. Crítico: Evalúa la calidad de las respuestas clasificadas.
5. Verificador: Comprueba la consistencia lógica y la corrección.
6. Generador y Evaluador de Pruebas Unitarias: Realiza pruebas pequeñas para verificar la precisión de las respuestas.
El enfoque estructurado de Archon permite una mejora más rápida en la calidad de las respuestas de los LLM, sin necesidad de ajuste adicional.
Limitaciones de Archon
Actualmente, Archon funciona mejor con LLM que tienen 70 mil millones de parámetros o más, como Code Llama 70B de Meta. Esta limitación surge de la capacidad reducida de los modelos más pequeños para seguir instrucciones debido a ventanas de contexto más estrechas. La investigación destacó una caída de rendimiento significativa del 16% cuando Archon se aplicó a modelos de 7B.
Además, los modelos que utilizan el marco Archon están un 15.7% por detrás de los modelos de un solo turno. El laboratorio de Stanford señaló que Archon no es adecuado para aplicaciones que requieren la latencia rápida de una llamada única de LLM, como los chatbots. Su arquitectura implica múltiples llamadas a LLM, lo que la hace menos efectiva para tareas sencillas de consulta-respuesta. Sin embargo, Archon puede destacar en la resolución de tareas más complejas que requieren instrucciones intrincadas, como la programación o escenarios avanzados de servicio al cliente.
A pesar de estos desafíos, los investigadores esperan que Archon pueda acelerar el desarrollo de LLM de alto rendimiento sin necesidad de una inversión de capital adicional en inferencia y entrenamiento.