Google DeepMind lance un système d'IA « surhumain » : révolutionnant la vérification des faits, réduisant les coûts et améliorant la précision.

Home Actualités IA Google DeepMind lance un système d'IA « surhumain » : révolutionnant la vérification des faits, réduisant les coûts et améliorant la précision.

Une étude récente de DeepMind de Google a révélé qu'un système d'intelligence artificielle peut surpasser des vérificateurs de faits humains dans l'évaluation de l'exactitude des informations produites par de grands modèles linguistiques. L'article, intitulé « Long-form factuality in large language models », publié sur arXiv, présente le Search-Augmented Factuality Evaluator (SAFE). Cette méthode innovante utilise un modèle linguistique avancé pour décomposer un texte généré en faits individuels et évaluer l’exactitude de chaque affirmation en se basant sur les résultats de recherche de Google.

Le SAFE applique un processus qui consiste à décomposer des réponses longues en faits distincts et à évaluer chacun d'eux via un raisonnement en plusieurs étapes. Cela inclut la réalisation de requêtes sur Google pour vérifier si les informations sont corroborées par des sources pertinentes.

Débat sur la Performance 'Surhumaine'

Les chercheurs ont comparé SAFE avec des annotateurs humains à l'aide d'un ensemble de données d'environ 16 000 faits. Ils ont constaté que les évaluations de SAFE correspondaient à celles des humains dans 72 % des cas. Parmi un échantillon de 100 divergences, les jugements de SAFE étaient corrects dans 76 % des cas. Bien que l'article affirme que « les agents LLM peuvent atteindre une performance d'évaluation surhumaine », certains experts contestent cette définition. Gary Marcus, un chercheur en IA reconnu, a commenté sur Twitter que « surhumain » pourrait signifier « meilleur qu'un travailleur à plein temps sous-payé, plutôt qu'un véritable vérificateur de faits ». Il a comparé cela à l'idée que les logiciels d'échecs de 1985 représentaient des capacités surhumaines.

Marcus soutient que pour valider des affirmations de performance surhumaine, SAFE devrait être évalué par rapport à des vérificateurs de faits humains experts, plutôt qu'à des travailleurs occasionnels. Les détails concernant les qualifications et les méthodes des évaluateurs humains sont essentiels pour interpréter correctement ces résultats.

Économies de Coûts et Évaluation des Modèles

Un avantage notable de SAFE est son coût réduit ; les chercheurs ont constaté que l'utilisation du système IA était environ 20 fois moins chère que de recourir à des vérificateurs de faits humains. Étant donné l'augmentation du volume d'informations produites par les modèles linguistiques, disposer d'une solution abordable et évolutive pour vérifier les informations est crucial.

L'équipe de DeepMind a appliqué SAFE pour évaluer l'exactitude factuelle de 13 modèles linguistiques leaders de quatre familles (Gemini, GPT, Claude et PaLM-2) en utilisant un nouveau référentiel appelé LongFact. Leurs résultats suggèrent que les modèles plus grands commettent généralement moins d'erreurs factuelles. Cependant, même les modèles les plus performants produisent encore un nombre considérable d'inexactitudes, soulignant la nécessité de prudence lorsqu'on s'appuie sur des modèles linguistiques pouvant véhiculer des informations trompeuses. Des outils comme SAFE pourraient être essentiels pour atténuer ces risques.

Besoin de Transparence et de Lignes de Base Humaines

Bien que le code de SAFE et le jeu de données LongFact soient disponibles sur GitHub pour des analyses et développements supplémentaires, une transparence accrue est nécessaire concernant les lignes de base humaines utilisées dans l'étude. Comprendre les qualifications et les processus des travailleurs occasionnels est crucial pour contextualiser la performance de SAFE.

À mesure que les entreprises technologiques s'efforcent de développer des modèles linguistiques de plus en plus sophistiqués pour diverses applications, la capacité de vérifier automatiquement l'exactitude de leurs résultats pourrait devenir essentielle. Des innovations telles que SAFE marquent une avance significative vers l'établissement de la confiance et de la responsabilité dans l'information générée par l'IA.

Cependant, il est essentiel que le développement de technologies aussi impactantes se fasse en toute transparence, en intégrant les perspectives de divers acteurs, au-delà de toute organisation unique. Un étalonnage rigoureux et transparent contre de véritables experts - plutôt que seulement des travailleurs occasionnels - sera la clé pour mesurer les avancées réelles. Ce n'est qu'alors que nous pourrons véritablement évaluer l'efficacité de la vérification automatique des faits dans la lutte contre la désinformation.

Elon Musk dévoile Grok-1.5 : Proche des jalons de performance de GPT-4

SambaNova Lance AI Samba-CoE v0.2 : Une Innovation et des Performances Supérieures à celles de Databricks DBRX

Most people like

Parlay Ideas | AI Powered Class Discussions

85.1K

Découvrez notre plateforme révolutionnaire alimentée par l'IA, conçue pour enrichir les discussions en classe. Grâce à une technologie de pointe, cet outil favorise des échanges engageants, stimule la pensée critique et simplifie la participation pour les enseignants et les étudiants. Transformez dès aujourd'hui votre environnement d'apprentissage avec notre plateforme intuitive qui révolutionne la façon dont les discussions sont animées en classe.

Alimenté par l'IA AI Education Assistant

Zephyr 7B Alpha Chat

Présentation d'un modèle linguistique de pointe qui crée un texte indiscernable de celui rédigé par des humains. Cette technologie avancée améliore la création de contenu, offrant des matériaux écrits de haute qualité et engageants avec aisance.

modèle de langage Large Language Models (LLMs)

Humanly

165.8K

Révolutionner le recrutement : Tirer parti de l'IA conversationnelle pour des solutions d'embauche évolutives

IA conversationnelle AI Interview Assistant

TurboScribe

3.1M

Découvrez des services de transcription AI illimités offrant une précision impressionnante de 99,8 % dans plus de 98 langues. Libérez le potentiel d'une communication et d'une transcription fluides dès aujourd'hui !

transcription audio Speech-to-Text

Find AI tools in YBX