Un nouvel indice d'hallucination de San Francisco, développé par Galileo, aide les entreprises à concevoir, affiner et surveiller des applications de modèles de langage de grande taille (LLM). Cet indice révèle que le modèle GPT-4 d'OpenAI présente le moins d'hallucinations parmi diverses tâches.
Publiée aujourd'hui, l'étude a évalué près d'une douzaine de LLMs open-source et closed-source, y compris la série Llama de Meta, afin de comparer leurs performances et de déterminer celui qui connaît le moins d'hallucinations. Les résultats montrent qu'alors que tous les LLM affichent des comportements variés selon les tâches, les modèles d'OpenAI surpassent systématiquement les autres dans plusieurs scénarios. Cet indice vise à aider les entreprises à surmonter le défi des hallucinations, un obstacle majeur à l'adoption généralisée des LLM dans des secteurs critiques comme la santé.
Suivi des Hallucinations des LLM : Un Défi Complexe
Malgré un vif intérêt des entreprises pour l'IA générative et le déploiement des LLM, des écarts de performance se manifestent souvent. Les LLM peuvent générer des réponses qui ne sont pas tout à fait précises, en raison de leur dépendance à une base de données vectorielle qui définit les termes et concepts associés, indépendamment de leur véracité.
"De nombreux facteurs influencent le déploiement des produits d'IA générative. Par exemple, votre outil est-il conçu pour générer des histoires à partir d'instructions simples ou s'agit-il d'un chatbot répondant aux demandes des clients basées sur des informations propriétaires ?" a expliqué Atindriyo Sanyal, co-fondateur et CTO de Galileo.
Actuellement, les entreprises utilisent des références pour évaluer la performance des modèles, mais une mesure complète de l'occurrence des hallucinations faisait défaut — jusqu'à présent. Pour aborder cette question, Sanyal et son équipe ont évalué onze LLMs open-source et closed-source majeurs sur trois tâches courantes : questions-réponses sans génération augmentée par récupération (RAG), questions-réponses avec RAG, et génération de texte long.
"Nous avons sélectionné sept ensembles de données populaires reconnus comme de rigoureux critères d'évaluation pour mettre efficacement à l'épreuve les capacités de chaque modèle", a noté Sanyal. Par exemple, dans la catégorie Q&R sans RAG, ils ont utilisé des ensembles de données comme TruthfulQA et TriviaQA pour mesurer la performance des modèles face à des questions générales.
L'équipe de Galileo a réduit la taille des ensembles de données et les a annotés pour établir une vérité de référence pour l'évaluation de la précision. Ils ont utilisé leurs propres métriques de Correction et d'Adhésion au Contexte pour évaluer les résultats.
"Ces métriques permettent aux ingénieurs et aux data scientists d'identifier efficacement les hallucinations. La Correction se concentre sur les erreurs logiques et de raisonnement, mesurant les Q&R sans RAG et la génération de texte long, tandis que l'Adhésion au Contexte évalue le raisonnement au sein des documents fournis, utilisé pour les Q&R avec RAG", a élaboré Sanyal.
Aperçu des Performances
Dans la catégorie question-réponse sans récupération, les modèles GPT d'OpenAI se sont distingués, GPT-4-0613 atteignant un score de correction de 0,77. Il est suivi par GPT-3.5 Turbo-1106, GPT-3.5-Turbo-Instruct, et GPT-3.5-Turbo-0613 avec des scores respectifs de 0,74, 0,70 et 0,70. Le modèle Llama-2-70b de Meta était le concurrent le plus proche avec un score de 0,65, tandis que les modèles Llama-2-7b-chat et MPT-7b-instruct de Mosaic ML ont obtenu des scores plus bas de 0,52 et 0,40.
Pour les tâches de récupération, GPT-4-0613 a également émergé en tant que meilleur performer avec un score d'adhésion au contexte de 0,76, suivi de près par GPT-3.5-Turbo-0613 et -1106 avec 0,75 et 0,74. Fait impressionnant, le Zephyr-7b de Hugging Face a obtenu un score de 0,71, dépassant le Llama-2-70b de Meta (score = 0,68). Le Falcon-40b des Émirats Arabes Unis et le MPT-7b de Mosaic ML ont encore des progrès à faire avec des scores de 0,60 et 0,58.
Pour les tâches de génération de texte long, les scores de GPT-4-0613 et Llama-2-70b ont été élevés à 0,83 et 0,82, respectivement, indiquant un minimum d'hallucination. GPT-3.5-Turbo-1106 a égalé le score de Llama, tandis que la version 0613 a suivi de près avec 0,81. MPT-7b a terminé à 0,53.
Équilibrer Performance et Coûts
Bien que GPT-4 d'OpenAI maintienne une performance supérieure dans toutes les tâches, son prix d'API peut accroître considérablement les coûts. Galileo suggère aux équipes de considérer les modèles GPT-3.5-Turbo pour des performances comparables à moindre coût. De plus, des modèles open-source comme Llama-2-70b peuvent offrir un bon équilibre entre performance et accessibilité.
Il est essentiel de reconnaître que cet indice évoluera, avec l'émergence de nouveaux modèles et l'amélioration des versions existantes au fil du temps. Galileo prévoit de mettre à jour l'indice tous les trimestres pour fournir aux équipes des classements précis des LLMs en fonction de leur tendance à halluciner à travers diverses tâches.
"Notre objectif est de fournir aux équipes une base solide pour s'attaquer aux hallucinations. Bien que nous ne nous attendions pas à ce que l'Indice d'Hallucination soit considéré comme définitif, nous espérons qu'il servira de point de départ complet pour leurs initiatives d'IA générative", a ajouté Sanyal.