LiveBench : Un Évaluation Ouverte de LLM avec des Données de Test Sans Contamination et une Évaluation Objectif

Une équipe collaborative d'Abacus.AI, de l'Université de New York, de Nvidia, de l'Université du Maryland et de l'Université de Californie du Sud a lancé LiveBench, un benchmark révolutionnaire conçu pour surmonter les limitations significatives des normes industrielles actuelles. LiveBench est un outil d'évaluation polyvalent pour les grands modèles de langage (LLMs), offrant des ensembles de données de test sans contamination, un problème fréquemment rencontré par les benchmarks existants en raison de l'utilisation répétée des mêmes ensembles de données à travers différents modèles.

Qu'est-ce qu'un benchmark ?

Un benchmark est un test standardisé qui évalue la performance des modèles d'IA à travers une série de tâches ou de métriques. Cela permet aux chercheurs et aux développeurs de comparer les résultats, de suivre les avancées et de comprendre les capacités de différents modèles.

LiveBench est particulièrement remarquable grâce aux contributions de Yann LeCun, le principal scientifique en IA de Meta, aux côtés de Colin White, responsable de la recherche chez Abacus.AI, et d'autres chercheurs de premier plan. Goldblum, un contributeur clé, a souligné la nécessité d'améliorer les benchmarks LLM, affirmant que cette initiative répondait au besoin de questions fraîchement générées et diversifiées pour éliminer la contamination des ensembles de test.

Points forts de LiveBench

La montée en puissance des LLMs a révélé l'inadéquation des benchmarks traditionnels en apprentissage automatique. La plupart des benchmarks étant disponibles publiquement, et de nombreux LLMs modernes intégrant d'importantes portions de données Internet lors de l'entraînement, un LLM qui rencontre des questions de benchmark pendant sa formation peut donner une impression de performance artificiellement élevée, suscitant des inquiétudes quant à la fiabilité de telles évaluations.

LiveBench vise à pallier ces lacunes en publiant chaque mois des questions mises à jour, provenant d'une variété d'ensembles de données récents, de compétitions de mathématiques, de papiers arXiv, d'articles d'actualité et de synopsis de films IMDb. Actuellement, 960 questions sont disponibles, chacune ayant une réponse objective et vérifiable permettant une évaluation précise sans juges LLM.

Catégories de tâches

LiveBench comprend 18 tâches réparties sur six catégories, utilisant des sources d'information continuellement mises à jour pour diversifier et compliquer les questions. Voici les catégories de tâches :

- Mathématiques : Questions issues de compétitions de mathématiques au niveau secondaire et de problèmes AMPS avancés.

- Programmation : Génération de code et une nouvelle tâche de complétion de code.

- Raisonnement : Scénarios difficiles tirés de Web of Lies de Big-Bench Hard et de raisonnement positionnel.

- Compréhension du langage : Tâches impliquant des devinettes de mots, la suppression de fautes de frappe et le déchiffrement de synopsis de films.

- Suivi des instructions : Quatre tâches axées sur la paraphrase, le résumé et la génération d'histoires basées sur des articles récents.

- Analyse de données : Tâches qui reformatent des tableaux, identifient des colonnes joignables et prédisent les types de colonnes à l'aide d'ensembles de données récents.

Les modèles sont évalués en fonction de leurs taux de réussite, qui devraient se situer entre 30 % et 70 %, reflétant la difficulté des tâches.

Classement des LLM sur LiveBench

Au 12 juin 2024, LiveBench a évalué de nombreux LLMs de premier plan, révélant que les meilleurs modèles ont obtenu moins de 60 % de précision. Par exemple, le GPT-4o d'OpenAI se classe en tête avec un score moyen de 53,79, suivi de près par le GPT-4 Turbo à 53,34.

Implications pour les leaders d'entreprise

Naviguer dans le paysage de l'IA représente un défi pour les leaders d'entreprise, notamment dans le choix du bon LLM. Les benchmarks offrent une assurance quant à la performance des modèles, mais ne fournissent souvent pas une image complète. Goldblum souligne que LiveBench simplifie la comparaison entre modèles, atténuant les préoccupations liées à la contamination des données et aux biais dans les évaluations humaines.

Comparaison avec les benchmarks existants

L'équipe de LiveBench a réalisé des analyses parallèles avec des benchmarks établis tels que Chatbot Arena de LMSYS et Arena-Hard. Bien que les tendances de LiveBench s'alignent généralement avec d'autres benchmarks, certaines divergences indiquent des biais potentiels dans l'évaluation des LLMs.

LiveBench est conçu comme un outil open source, permettant à quiconque de l'utiliser, d'y contribuer et d'en étendre les capacités. Comme le note White, des benchmarks efficaces sont essentiels pour le développement de LLMs performants, ce qui accélère à son tour l'innovation des modèles. Les développeurs peuvent accéder au code de LiveBench via GitHub et utiliser ses ensembles de données sur Hugging Face.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles