Des chercheurs d'Apple ont lancé ToolSandbox, un benchmark innovant destiné à évaluer en profondeur les capacités des assistants AI dans des situations réelles. Cette recherche, détaillée dans une publication récente sur arXiv, vise à combler les lacunes critiques des méthodes d'évaluation existantes des grands modèles de langage (LLMs) utilisant des outils externes.
ToolSandbox introduit trois éléments essentiels souvent négligés par d'autres benchmarks : les interactions d'état, les compétences conversationnelles, et les évaluations dynamiques. L'auteur principal, Jiarui Lu, souligne que « ToolSandbox inclut l'exécution des outils avec état, les dépendances d'état implicites entre les outils, un simulateur utilisateur intégré soutenant une évaluation conversationnelle en temps réel, et une stratégie d'évaluation dynamique. »
Ce benchmark est conçu pour refléter fidèlement des scénarios réels. Par exemple, il peut évaluer si un assistant AI comprend la nécessité d'activer le service cellulaire d'un appareil avant d'envoyer un message texte, une tâche qui nécessite un raisonnement sur l'état actuel du système et des ajustements appropriés.
Les Modèles Propriétaires Surpassent les Modèles Open Source, Malgré des Défis Persistants
Lors des tests de divers modèles AI avec ToolSandbox, les chercheurs ont découvert une disparité de performance significative entre les modèles propriétaires et open source. Cette constatation contredit des affirmations récentes suggérant que l'AI open source rattrape rapidement les systèmes propriétaires. Par exemple, un benchmark récent de la startup Galileo a indiqué des progrès parmi les modèles open source, tandis que Meta et Mistral ont introduit des modèles qu’ils affirment rivaliser avec les systèmes propriétaires de pointe.
Cependant, l'étude d'Apple a révélé que même les assistants AI les plus avancés peinaient avec des tâches complexes impliquant des dépendances d'état, la canonicalisation (le processus de conversion des entrées utilisateur en formats standard), et des situations avec des informations limitées. Les auteurs ont déclaré : « Nous montrons qu'il existe un écart de performance significatif entre les modèles open source et propriétaires, et que les tâches complexes définies dans ToolSandbox posent des défis même aux LLMs de pointe les plus performants, offrant de nouvelles perspectives sur les capacités d'utilisation des outils. »
Il est intéressant de noter que l'étude a montré que des modèles plus grands sous-performaient parfois par rapport à des modèles plus petits, en particulier dans des scénarios impliquant des dépendances d'état. Cela suggère que la taille seule ne garantit pas une performance supérieure dans la gestion de tâches complexes et réelles.
Comprendre la Complexité de la Performance de l'AI
L'établissement de ToolSandbox pourrait avoir un impact considérable sur le développement et l'évaluation des assistants AI. En fournissant un environnement de test réaliste, les chercheurs peuvent mieux identifier et aborder les limites clés des systèmes AI actuels, conduisant à la création d'assistants AI plus capables et fiables.
À mesure que l'AI s'intègre de plus en plus dans la vie quotidienne, des benchmarks comme ToolSandbox seront essentiels pour garantir que ces systèmes puissent naviguer dans les complexités et nuances des interactions réelles. L'équipe de recherche prévoit de publier bientôt le cadre d'évaluation ToolSandbox sur GitHub, encourageant la communauté AI à contribuer et à améliorer cette initiative importante.
Bien que les récentes avancées dans l'AI open source aient suscité un engouement pour la démocratisation de l'accès à des outils de pointe, l'étude d'Apple souligne que des défis considérables subsistent dans la création de systèmes AI capables de gérer des tâches complexes et réelles. Alors que le domaine évolue rapidement, des benchmarks rigoureux comme ToolSandbox seront cruciaux pour faire la distinction entre l'engouement et la réalité, et pour orienter le développement d'assistants AI véritablement efficaces.