Arize AI, un service d'observabilité, a lancé un nouveau produit destiné à aider les entreprises à identifier quand des données d’invite entraînent des erreurs ou des hallucinations dans les grands modèles linguistiques (GPT). Cet outil, conçu pour les ingénieurs en IA, fournit des informations essentielles pour le débogage de systèmes complexes, souvent en isolant des problèmes issus de quelques lignes de code.
Comme l'explique Jason Lopatecki, co-fondateur et PDG d'Arize, « Nous sommes tous des ingénieurs prompts — nous avons élaboré nos propres invites. De nombreuses applications utilisent des modèles d'invite qui permettent une réutilisation sur divers ensembles de données, améliorant ainsi les réponses aux requêtes des utilisateurs. Cependant, ces modèles dépendent de variables d'invite extraites de votre système, et même de légères divergences dans les données peuvent provoquer des hallucinations ou des erreurs dans les résultats du modèle. »
Surveiller les variables d'invite est crucial, notamment dans le contexte des chatbots de service client alimentés par l'IA, où de fausses informations peuvent nuire à la réputation d'une marque. Gérer un seul modèle peut faciliter la surveillance, mais les entreprises utilisent souvent plusieurs modèles de fournisseurs comme OpenAI, Google, Meta, Anthropic et Mistral, rendant cette surveillance d'autant plus essentielle.
Lopatecki souligne que la désinformation est la principale cause de ces hallucinations. Identifier l'origine de ces erreurs — qu'il s'agisse des données entrées dans le modèle, du modèle d'invite sélectionné ou d'autres facteurs — est vital pour des réparations efficaces du système.
Comprendre la variabilité est également crucial. Cela fait référence à l'éventail des résultats potentiels des modèles d'IA influencés par de légers ajustements ou des données erronées. « Le processus de décision n'est pas simplement un scénario d'entrée-sortie », précise Lopatecki. « Les résultats de l'IA alimentent souvent des décisions AI ultérieures, créant un réseau complexe où les variations peuvent se transformer en problèmes significatifs. »
Pour relever ces défis, Arize développe des outils spécifiquement pour les ingénieurs en IA, maîtrisant l'utilisation de modèles linguistiques avancés pour construire des systèmes d'IA sophistiqués. « Ces ingénieurs ont besoin d’outils robustes pour améliorer l’intelligence de leurs applications. Le rôle de l'ingénieur en IA sera omniprésent dans les années à venir », déclare Lopatecki.
Lopatecki aspire à faire d'Arize le « Datadog de l'IA », le positionnant comme concurrent du géant de la surveillance cloud, qui s'est lancé dans la surveillance de l'IA, y compris le soutien aux modèles OpenAI comme GPT-4. Cependant, il estime qu'Arize a un avantage : « Contrairement à Datadog, nous sommes nés dans l'espace IA. Le rythme d'innovation est rapide, et ils sont encore en train de développer leurs produits d'IA. »
Il souligne l'urgence de fournir des solutions d'IA efficaces : « Alors que les entreprises s'efforcent de déployer, elles ne testent souvent que des scénarios limités. La variabilité et les problèmes potentiels deviennent évidents une fois ces systèmes fonctionnent dans le monde réel, entraînant de nombreux défis imprévus. Le besoin d’outils de débogage efficaces a atteint un point critique, et les entreprises commencent à réaliser combien de choses peuvent mal tourner. »