Classement : GPT-4 d'OpenAI Atteint le Taux le Plus Bas d'Hallucinations

Home Actualités IA Classement : GPT-4 d'OpenAI Atteint le Taux le Plus Bas d'Hallucinations

Updated on octobre 25 2024

Le GPT-4 d'OpenAI s'affirme comme le leader des modèles de langage à grande échelle (LLM) en matière de réduction des hallucinations lors des résumés de documents, selon une récente évaluation de Vectara. L'entreprise a publié un classement complet sur GitHub pour évaluer les principaux LLM à l'aide de son modèle d'évaluation des hallucinations, qui quantifie la fréquence des hallucinations — des situations où l'IA génère des informations inexactes ou fictives — pendant les résumés.

Le GPT-4 et sa variante, GPT-4 Turbo, ont affiché des performances remarquables, atteignant un taux de précision de 97 % et un taux d'hallucination minimal de seulement 3 %. Le GPT-3.5 Turbo suit de près avec une précision impressionnante de 96,5 % et un taux d'hallucination légèrement supérieur à 3,5 %.

Parmi les concurrents non liés à OpenAI, Llama 2 de Meta, avec ses 70 milliards de paramètres, s'est distinguée avec un score de précision de 94,9 % et un taux d'hallucination de seulement 5,1 %. En revanche, les modèles de Google ont affiché de moins bons résultats. Google Palm 2 a enregistré une précision de 87,9 % avec un taux d'hallucination de 12,1 %, tandis que sa version optimisée pour le chat a connu une chute significative, ne dépassant que 72,8 % de précision et affichant le taux d'hallucination le plus élevé de 27,2 %.

Il est à noter que Google Palm 2 Chat a produit le nombre moyen de mots le plus élevé par résumé, avec 221 mots, alors que GPT-4 a généré en moyenne 81 mots par résumé.

Méthodologie d'Évaluation

L'évaluation de Vectara, qui vise à identifier les hallucinations dans les résultats des LLM, a utilisé des ensembles de données en source ouverte. L'entreprise a testé chaque modèle sur 1 000 documents courts, demandant des résumés basés uniquement sur le contenu fourni. Cependant, seulement 831 documents ont été résumés par chaque modèle, les autres ayant été filtrés en raison de restrictions de contenu. Pour les documents partagés entre tous les modèles, Vectara a calculé les taux de précision et d'hallucination globaux.

Bien que le contenu testé soit exempt de matériel illicite et 'non adapté au travail', la présence de certains mots déclencheurs a conduit à des restrictions pour certains modèles.

S'attaquer aux Défis des Hallucinations

Le problème des hallucinations représente un obstacle majeur à l'adoption massive de l'IA générative par les entreprises. Shane Connelly, responsable produit chez Vectara, a souligné dans un article de blog les difficultés historiques de quantification des hallucinations. Les tentatives précédentes étaient souvent trop abstraites ou impliquaient des sujets controversés, limitant leur application pratique.

Le modèle d'évaluation des hallucinations créé par Vectara est open-source, permettant aux organisations de l'utiliser pour évaluer la fiabilité de leurs modèles linguistiques dans les cadres de génération augmentée par la récupération (RAG). Accessible via Hugging Face, il permet aux utilisateurs de le personnaliser en fonction de leurs besoins spécifiques.

Comme le mentionne Connelly, "notre objectif est de fournir aux entreprises les informations nécessaires pour mettre en œuvre des systèmes génératifs en toute confiance grâce à une analyse approfondie et quantifiée." En offrant une compréhension plus claire des sorties de l'IA, les entreprises peuvent mieux naviguer dans les nuances de cette technologie.

Révolutionnaire : Deux systèmes d'IA négocient avec succès leur propre contrat.

OpenAI a envisagé une fusion avec Anthropic : Sam Altman surnommé le 'Martyr'

Most people like

Caktus AI

126.9K

Caktus AI est une plateforme innovante conçue spécialement pour les étudiants, offrant des outils d'IA puissants pour l'écriture, la résolution de problèmes, le codage et diverses tâches académiques. Développez votre potentiel avec les fonctionnalités de Caktus AI, adaptées pour améliorer l'apprentissage et augmenter la productivité.

IA AI Education Assistant

Xtransfer

173.5K

Améliorer les paiements commerciaux globaux sécurisés est essentiel dans l'économie interconnectée d'aujourd'hui. Alors que les entreprises s'appuient de plus en plus sur des transactions internationales, garantir la sécurité et la fiabilité des processus de paiement est plus crucial que jamais. Avec les bonnes mesures en place, les entreprises peuvent minimiser les risques, rationaliser leurs opérations et favoriser la confiance dans le commerce transfrontalier. Prioriser des solutions de paiement sécurisées protège non seulement vos intérêts financiers, mais ouvre également la voie à une croissance durable sur le marché mondial.

Paiement du commerce mondial Other

Lingo Champion

5.6K

Découvrez le plaisir d'apprendre des langues sans effort en naviguant sur le web avec Lingo Champion ! Améliorez vos compétences en temps réel sans interrompre votre expérience en ligne.

apprentissage des langues AI Course

Carepatron

585.4K

Améliorez la réussite des clients, optimisez les processus et augmentez la productivité grâce à des outils sur mesure et des flux de travail optimisés. Découvrez comment des solutions personnalisables peuvent transformer vos opérations commerciales dès aujourd'hui.

Logiciel de gestion de pratique Healthcare

Find AI tools in YBX