Classement : GPT-4 d'OpenAI Atteint le Taux le Plus Bas d'Hallucinations

Le GPT-4 d'OpenAI s'affirme comme le leader des modèles de langage à grande échelle (LLM) en matière de réduction des hallucinations lors des résumés de documents, selon une récente évaluation de Vectara. L'entreprise a publié un classement complet sur GitHub pour évaluer les principaux LLM à l'aide de son modèle d'évaluation des hallucinations, qui quantifie la fréquence des hallucinations — des situations où l'IA génère des informations inexactes ou fictives — pendant les résumés.

Le GPT-4 et sa variante, GPT-4 Turbo, ont affiché des performances remarquables, atteignant un taux de précision de 97 % et un taux d'hallucination minimal de seulement 3 %. Le GPT-3.5 Turbo suit de près avec une précision impressionnante de 96,5 % et un taux d'hallucination légèrement supérieur à 3,5 %.

Parmi les concurrents non liés à OpenAI, Llama 2 de Meta, avec ses 70 milliards de paramètres, s'est distinguée avec un score de précision de 94,9 % et un taux d'hallucination de seulement 5,1 %. En revanche, les modèles de Google ont affiché de moins bons résultats. Google Palm 2 a enregistré une précision de 87,9 % avec un taux d'hallucination de 12,1 %, tandis que sa version optimisée pour le chat a connu une chute significative, ne dépassant que 72,8 % de précision et affichant le taux d'hallucination le plus élevé de 27,2 %.

Il est à noter que Google Palm 2 Chat a produit le nombre moyen de mots le plus élevé par résumé, avec 221 mots, alors que GPT-4 a généré en moyenne 81 mots par résumé.

Méthodologie d'Évaluation

L'évaluation de Vectara, qui vise à identifier les hallucinations dans les résultats des LLM, a utilisé des ensembles de données en source ouverte. L'entreprise a testé chaque modèle sur 1 000 documents courts, demandant des résumés basés uniquement sur le contenu fourni. Cependant, seulement 831 documents ont été résumés par chaque modèle, les autres ayant été filtrés en raison de restrictions de contenu. Pour les documents partagés entre tous les modèles, Vectara a calculé les taux de précision et d'hallucination globaux.

Bien que le contenu testé soit exempt de matériel illicite et 'non adapté au travail', la présence de certains mots déclencheurs a conduit à des restrictions pour certains modèles.

S'attaquer aux Défis des Hallucinations

Le problème des hallucinations représente un obstacle majeur à l'adoption massive de l'IA générative par les entreprises. Shane Connelly, responsable produit chez Vectara, a souligné dans un article de blog les difficultés historiques de quantification des hallucinations. Les tentatives précédentes étaient souvent trop abstraites ou impliquaient des sujets controversés, limitant leur application pratique.

Le modèle d'évaluation des hallucinations créé par Vectara est open-source, permettant aux organisations de l'utiliser pour évaluer la fiabilité de leurs modèles linguistiques dans les cadres de génération augmentée par la récupération (RAG). Accessible via Hugging Face, il permet aux utilisateurs de le personnaliser en fonction de leurs besoins spécifiques.

Comme le mentionne Connelly, "notre objectif est de fournir aux entreprises les informations nécessaires pour mettre en œuvre des systèmes génératifs en toute confiance grâce à une analyse approfondie et quantifiée." En offrant une compréhension plus claire des sorties de l'IA, les entreprises peuvent mieux naviguer dans les nuances de cette technologie.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles