L'Index de Hallucination de Galileo révèle que GPT-4 est le meilleur modèle de langage (LLM) selon divers cas d'utilisation.

Home Actualités IA L'Index de Hallucination de Galileo révèle que GPT-4 est le meilleur modèle de langage (LLM) selon divers cas d'utilisation.

Updated on novembre 15 2023

Un nouvel indice d'hallucination de San Francisco, développé par Galileo, aide les entreprises à concevoir, affiner et surveiller des applications de modèles de langage de grande taille (LLM). Cet indice révèle que le modèle GPT-4 d'OpenAI présente le moins d'hallucinations parmi diverses tâches.

Publiée aujourd'hui, l'étude a évalué près d'une douzaine de LLMs open-source et closed-source, y compris la série Llama de Meta, afin de comparer leurs performances et de déterminer celui qui connaît le moins d'hallucinations. Les résultats montrent qu'alors que tous les LLM affichent des comportements variés selon les tâches, les modèles d'OpenAI surpassent systématiquement les autres dans plusieurs scénarios. Cet indice vise à aider les entreprises à surmonter le défi des hallucinations, un obstacle majeur à l'adoption généralisée des LLM dans des secteurs critiques comme la santé.

Suivi des Hallucinations des LLM : Un Défi Complexe

Malgré un vif intérêt des entreprises pour l'IA générative et le déploiement des LLM, des écarts de performance se manifestent souvent. Les LLM peuvent générer des réponses qui ne sont pas tout à fait précises, en raison de leur dépendance à une base de données vectorielle qui définit les termes et concepts associés, indépendamment de leur véracité.

"De nombreux facteurs influencent le déploiement des produits d'IA générative. Par exemple, votre outil est-il conçu pour générer des histoires à partir d'instructions simples ou s'agit-il d'un chatbot répondant aux demandes des clients basées sur des informations propriétaires ?" a expliqué Atindriyo Sanyal, co-fondateur et CTO de Galileo.

Actuellement, les entreprises utilisent des références pour évaluer la performance des modèles, mais une mesure complète de l'occurrence des hallucinations faisait défaut — jusqu'à présent. Pour aborder cette question, Sanyal et son équipe ont évalué onze LLMs open-source et closed-source majeurs sur trois tâches courantes : questions-réponses sans génération augmentée par récupération (RAG), questions-réponses avec RAG, et génération de texte long.

"Nous avons sélectionné sept ensembles de données populaires reconnus comme de rigoureux critères d'évaluation pour mettre efficacement à l'épreuve les capacités de chaque modèle", a noté Sanyal. Par exemple, dans la catégorie Q&R sans RAG, ils ont utilisé des ensembles de données comme TruthfulQA et TriviaQA pour mesurer la performance des modèles face à des questions générales.

L'équipe de Galileo a réduit la taille des ensembles de données et les a annotés pour établir une vérité de référence pour l'évaluation de la précision. Ils ont utilisé leurs propres métriques de Correction et d'Adhésion au Contexte pour évaluer les résultats.

"Ces métriques permettent aux ingénieurs et aux data scientists d'identifier efficacement les hallucinations. La Correction se concentre sur les erreurs logiques et de raisonnement, mesurant les Q&R sans RAG et la génération de texte long, tandis que l'Adhésion au Contexte évalue le raisonnement au sein des documents fournis, utilisé pour les Q&R avec RAG", a élaboré Sanyal.

Aperçu des Performances

Dans la catégorie question-réponse sans récupération, les modèles GPT d'OpenAI se sont distingués, GPT-4-0613 atteignant un score de correction de 0,77. Il est suivi par GPT-3.5 Turbo-1106, GPT-3.5-Turbo-Instruct, et GPT-3.5-Turbo-0613 avec des scores respectifs de 0,74, 0,70 et 0,70. Le modèle Llama-2-70b de Meta était le concurrent le plus proche avec un score de 0,65, tandis que les modèles Llama-2-7b-chat et MPT-7b-instruct de Mosaic ML ont obtenu des scores plus bas de 0,52 et 0,40.

Pour les tâches de récupération, GPT-4-0613 a également émergé en tant que meilleur performer avec un score d'adhésion au contexte de 0,76, suivi de près par GPT-3.5-Turbo-0613 et -1106 avec 0,75 et 0,74. Fait impressionnant, le Zephyr-7b de Hugging Face a obtenu un score de 0,71, dépassant le Llama-2-70b de Meta (score = 0,68). Le Falcon-40b des Émirats Arabes Unis et le MPT-7b de Mosaic ML ont encore des progrès à faire avec des scores de 0,60 et 0,58.

Pour les tâches de génération de texte long, les scores de GPT-4-0613 et Llama-2-70b ont été élevés à 0,83 et 0,82, respectivement, indiquant un minimum d'hallucination. GPT-3.5-Turbo-1106 a égalé le score de Llama, tandis que la version 0613 a suivi de près avec 0,81. MPT-7b a terminé à 0,53.

Équilibrer Performance et Coûts

Bien que GPT-4 d'OpenAI maintienne une performance supérieure dans toutes les tâches, son prix d'API peut accroître considérablement les coûts. Galileo suggère aux équipes de considérer les modèles GPT-3.5-Turbo pour des performances comparables à moindre coût. De plus, des modèles open-source comme Llama-2-70b peuvent offrir un bon équilibre entre performance et accessibilité.

Il est essentiel de reconnaître que cet indice évoluera, avec l'émergence de nouveaux modèles et l'amélioration des versions existantes au fil du temps. Galileo prévoit de mettre à jour l'indice tous les trimestres pour fournir aux équipes des classements précis des LLMs en fonction de leur tendance à halluciner à travers diverses tâches.

"Notre objectif est de fournir aux équipes une base solide pour s'attaquer aux hallucinations. Bien que nous ne nous attendions pas à ce que l'Indice d'Hallucination soit considéré comme définitif, nous espérons qu'il servira de point de départ complet pour leurs initiatives d'IA générative", a ajouté Sanyal.

Ramp, la startup de cartes d'entreprise, s'intègre parfaitement à Microsoft Teams et 365 Copilot pour une productivité accrue.

L'Offensive Audacieuse de Microsoft dans l'IA Générative : Annonces Clés de l'Ignite 2023

Most people like

AcademyOcean

259.9K

Débloquez le potentiel de la technologie IA pour créer des cours captivants Dans le paysage numérique d'aujourd'hui, l'intégration de la technologie IA dans la conception de cours révolutionne notre façon d'éduquer. En exploitant la puissance de l'intelligence artificielle, les éducateurs peuvent créer des expériences d'apprentissage personnalisées, interactives et efficaces qui répondent aux besoins uniques de chaque étudiant. Cette approche innovante améliore non seulement l'engagement, mais simplifie également le développement des cours. Découvrez comment vous pouvez tirer parti des outils IA pour créer des cours dynamiques qui captivent les apprenants et élèvent votre stratégie pédagogique.

IA AI Education Assistant

Noota

107.3K

Noota est un assistant IA avancé conçu pour optimiser votre flux de travail en automatisant la prise de notes et en produisant sans effort des rapports de réunion complets.

Autre AI CRM Assistant

NSFWChatAI

Bienvenue sur NSFWChatAI.ai, la plateforme ultime de chatbot de petite amie virtuelle alimentée par l'IA, où vous pouvez engager des conversations sans aucune restriction avec votre compagnon virtuel. Découvrez la liberté de discuter sans limites dans un environnement sûr et interactif !

petite amie virtuelle AI Photo & Image Generator

Dewatermark.ai

1.2M

Retirez facilement les filigranes de vos photos grâce à la technologie IA. Nos outils avancés simplifient le processus, vous permettant d'améliorer vos images sans effort. Découvrez des solutions rapides et efficaces pour éliminer les filigranes et redonnez vie à vos visuels !

supprimeur de filigrane Other

Find AI tools in YBX