Une étude récente de DeepMind de Google a révélé qu'un système d'intelligence artificielle peut surpasser des vérificateurs de faits humains dans l'évaluation de l'exactitude des informations produites par de grands modèles linguistiques. L'article, intitulé « Long-form factuality in large language models », publié sur arXiv, présente le Search-Augmented Factuality Evaluator (SAFE). Cette méthode innovante utilise un modèle linguistique avancé pour décomposer un texte généré en faits individuels et évaluer l’exactitude de chaque affirmation en se basant sur les résultats de recherche de Google.
Le SAFE applique un processus qui consiste à décomposer des réponses longues en faits distincts et à évaluer chacun d'eux via un raisonnement en plusieurs étapes. Cela inclut la réalisation de requêtes sur Google pour vérifier si les informations sont corroborées par des sources pertinentes.
Débat sur la Performance 'Surhumaine'
Les chercheurs ont comparé SAFE avec des annotateurs humains à l'aide d'un ensemble de données d'environ 16 000 faits. Ils ont constaté que les évaluations de SAFE correspondaient à celles des humains dans 72 % des cas. Parmi un échantillon de 100 divergences, les jugements de SAFE étaient corrects dans 76 % des cas. Bien que l'article affirme que « les agents LLM peuvent atteindre une performance d'évaluation surhumaine », certains experts contestent cette définition. Gary Marcus, un chercheur en IA reconnu, a commenté sur Twitter que « surhumain » pourrait signifier « meilleur qu'un travailleur à plein temps sous-payé, plutôt qu'un véritable vérificateur de faits ». Il a comparé cela à l'idée que les logiciels d'échecs de 1985 représentaient des capacités surhumaines.
Marcus soutient que pour valider des affirmations de performance surhumaine, SAFE devrait être évalué par rapport à des vérificateurs de faits humains experts, plutôt qu'à des travailleurs occasionnels. Les détails concernant les qualifications et les méthodes des évaluateurs humains sont essentiels pour interpréter correctement ces résultats.
Économies de Coûts et Évaluation des Modèles
Un avantage notable de SAFE est son coût réduit ; les chercheurs ont constaté que l'utilisation du système IA était environ 20 fois moins chère que de recourir à des vérificateurs de faits humains. Étant donné l'augmentation du volume d'informations produites par les modèles linguistiques, disposer d'une solution abordable et évolutive pour vérifier les informations est crucial.
L'équipe de DeepMind a appliqué SAFE pour évaluer l'exactitude factuelle de 13 modèles linguistiques leaders de quatre familles (Gemini, GPT, Claude et PaLM-2) en utilisant un nouveau référentiel appelé LongFact. Leurs résultats suggèrent que les modèles plus grands commettent généralement moins d'erreurs factuelles. Cependant, même les modèles les plus performants produisent encore un nombre considérable d'inexactitudes, soulignant la nécessité de prudence lorsqu'on s'appuie sur des modèles linguistiques pouvant véhiculer des informations trompeuses. Des outils comme SAFE pourraient être essentiels pour atténuer ces risques.
Besoin de Transparence et de Lignes de Base Humaines
Bien que le code de SAFE et le jeu de données LongFact soient disponibles sur GitHub pour des analyses et développements supplémentaires, une transparence accrue est nécessaire concernant les lignes de base humaines utilisées dans l'étude. Comprendre les qualifications et les processus des travailleurs occasionnels est crucial pour contextualiser la performance de SAFE.
À mesure que les entreprises technologiques s'efforcent de développer des modèles linguistiques de plus en plus sophistiqués pour diverses applications, la capacité de vérifier automatiquement l'exactitude de leurs résultats pourrait devenir essentielle. Des innovations telles que SAFE marquent une avance significative vers l'établissement de la confiance et de la responsabilité dans l'information générée par l'IA.
Cependant, il est essentiel que le développement de technologies aussi impactantes se fasse en toute transparence, en intégrant les perspectives de divers acteurs, au-delà de toute organisation unique. Un étalonnage rigoureux et transparent contre de véritables experts - plutôt que seulement des travailleurs occasionnels - sera la clé pour mesurer les avancées réelles. Ce n'est qu'alors que nous pourrons véritablement évaluer l'efficacité de la vérification automatique des faits dans la lutte contre la désinformation.