Des chercheurs du Scaling Intelligence Lab de l’Université de Stanford ont lancé un nouveau cadre d'inférence appelé Archon, conçu pour améliorer l'efficacité des modèles de langage de grande taille (LLMs) dans la génération de réponses. Archon utilise un algorithme de recherche d'architecture en temps d'inférence (ITAS) qui optimise les performances des LLM sans nécessiter d'entraînement supplémentaire. Ce cadre ouvert, indépendant du modèle, est facilement implémentable avec des modèles de toutes tailles.
Archon vise à aider les développeurs à créer des systèmes d'IA en exploitant diverses techniques d'inférence pour rationaliser la génération des réponses. Selon le Scaling Intelligence Lab, ces techniques peuvent réduire considérablement les coûts liés au développement et à l'inférence des modèles. À mesure que les LLM évoluent vers des paramètres plus importants et un raisonnement plus sophistiqué, les coûts peuvent augmenter, malgré les attentes d'entreprises comme OpenAI en matière d'accessibilité accrue.
Les chercheurs soulignent qu'Archon élabore automatiquement des architectures qui améliorent la généralisation des tâches, permettant aux modèles de relever des défis au-delà de leur portée d'entraînement initiale. « Notre cadre Archon et l'algorithme ITAS s'inspirent des architectures neuronales et des pratiques de recherche d'architecture », expliquent-ils. « Archon se compose de couches de LLM, où les modèles d'une même couche fonctionnent en parallèle, tandis que chaque couche suivante traite les résultats de manière séquentielle. »
Ces couches utilisent diverses techniques d'inférence pour modifier les réponses candidates, intégrant à la fois des transformations linéaires et des raffinements de réponse, tels que les non-linéarités. Dans des tests de référence incluant MT-Bench, Arena-Hard-Auto, Alpaca-2.0 Eval, MixEval, MixEval Hard, MATH et CodeContests, Archon a surpassé GPT-4o et Claude 3.5 Sonnet de 15,1 points de pourcentage, tout en devançant les LLM open-source de 11,2 points.
Composants d'Archon
L'algorithme ITAS se compose de plusieurs éléments essentiels qui exécutent des techniques d'inférence :
1. Générateur : génère des réponses potentielles pour le modèle.
2. Fusionneur : combine ces réponses en une réponse cohérente. Par exemple, s'il est demandé quelle est la capitale de la France, il synthétise les réponses comme « la capitale de la France est Paris » et « la France est en Europe » en une déclaration : « La capitale de la France, qui se trouve en Europe, est Paris. »
3. Classement : classe les réponses générées.
4. Critique : évalue la qualité des réponses classées.
5. Vérificateur : contrôle la cohérence logique et l'exactitude.
6. Générateur et Évaluateur de Test Unitaire : effectue de petits tests pour vérifier l'exactitude des réponses.
L'approche structurée d'Archon permet d'améliorer rapidement la qualité des réponses des LLM sans nécessiter d'ajustements supplémentaires.
Limitations d'Archon
Actuellement, Archon fonctionne de manière optimale avec des LLM ayant 70 milliards de paramètres ou plus, comme le Code Llama 70B de Meta. Cette limitation découle de la capacité réduite des modèles plus petits à suivre des instructions en raison de fenêtres contextuelles plus étroites. La recherche a révélé une chute de performance significative de 16 % lorsque l'algorithme Archon était appliqué aux modèles de 7B.
De plus, les modèles utilisant le cadre Archon accusent un retard de 15,7 % par rapport aux modèles à tour unique. Le laboratoire de Stanford affirme qu'Archon n'est pas adapté aux applications nécessitant la faible latence d'un appel unique de LLM, comme les chatbots. Sa structure implique plusieurs appels de LLM, ce qui le rend moins efficace pour les tâches simples de requête-réponse. Cependant, Archon pourrait exceller dans des tâches plus complexes nécessitant des instructions détaillées, telles que la programmation ou des scénarios de service client avancés.
Malgré ces défis, les chercheurs espèrent qu'Archon pourra accélérer le développement de LLM performants sans nécessiter un investissement accru en capital pour l'inférence et l'entraînement.