Patronus AI lève 17 millions de dollars pour lutter contre les hallucinations de l'IA et les problèmes de droits d'auteur, favorisant l'adoption en entreprise.

Alors que les entreprises se précipitent pour adopter l'IA générative, des inquiétudes concernant la précision et la sécurité des grands modèles de langage (LLM) menacent d'entraver leur intégration à grande échelle. Patronus AI, une startup de San Francisco, s’attaque à ces défis avec un financement de 17 millions de dollars en série A pour identifier automatiquement les erreurs coûteuses et potentiellement dangereuses des LLM à grande échelle.

Ce tour de financement, qui porte l'investissement total dans Patronus AI à 20 millions de dollars, a été dirigé par Glenn Solomon de Notable Capital, avec la participation de Lightspeed Venture Partners, de l'ancien cadre de DoorDash Gokul Rajaram, de Factorial Capital, de Datadog et de plusieurs autres leaders technologiques non divulgués.

Fondée par des experts en apprentissage machine issus de Meta, Anand Kannappan et Rebecca Qian, Patronus AI a développé une plateforme d'évaluation automatisée conçue pour détecter des problèmes tels que les hallucinations, les violations de droits d'auteur et les risques de sécurité dans les résultats des LLM. Utilisant une IA propriétaire, la plateforme évalue les performances des modèles, les met à l’épreuve avec des exemples adversariaux et facilite un étalonnage détaillé, le tout sans le travail manuel habituellement requis par les entreprises.

« Notre produit excelle dans la détection d'une variété d'erreurs », a déclaré Kannappan, PDG de Patronus AI. « Cela inclut les hallucinations, les problèmes de droits d'auteur, les risques liés à la sécurité et des fonctionnalités adaptées pour maintenir le style et le ton d'une marque. »

L'émergence de puissants LLM comme le GPT-4 d'OpenAI et le Llama 3 de Meta a suscité une course concurrentielle à Silicon Valley pour tirer parti des capacités génératives de cette technologie. Cependant, ces avancées s’accompagnent d'échecs notables, des articles générés par l'IA de CNET truffés d'erreurs aux entreprises de découverte de médicaments rétractant des travaux de recherche influencés par des inexactitudes des LLM.

Ces échecs mettent en évidence des problèmes systémiques profonds au sein des LLM actuels, que Patronus AI s'engage à résoudre. Leurs recherches, y compris le récent lancement de l'API "CopyrightCatcher" et du benchmark "FinanceBench", révèlent des lacunes alarmantes dans la capacité des modèles leaders à fournir des réponses précises et factuelles.

Dans le benchmark "FinanceBench", Patronus a évalué des modèles comme le GPT-4 sur des requêtes financières utilisant des dépôts publics auprès de la SEC. Les résultats étaient frappants : le modèle le mieux noté n’a répondu correctement qu’à 19 % des questions, malgré l'examen d'un rapport annuel complet. Une évaluation distincte avec l'API "CopyrightCatcher" a découvert que les LLM en accès libre reproduisaient textuellement des contenus protégés dans 44 % des cas.

« Même les modèles les plus avancés ont des difficultés avec la précision, ne performants qu'à 90 % dans des contextes financiers », a noté Qian, CTO de Patronus. « Nos résultats montrent que les modèles en open source produisent plus de 20 % de réponses dangereuses dans des domaines à haut risque. Les violations de droits d'auteur sont une préoccupation majeure ; les grands éditeurs et les entreprises médiatiques doivent rester vigilants. »

Alors que d'autres startups comme Credo AI et Weights & Biases développent des outils d'évaluation des LLM, Patronus se distingue par une approche axée sur la recherche. Leur technologie centrale consiste à former des modèles d'évaluation dédiés pour identifier des scénarios spécifiques où les LLM peuvent échouer.

« Aucune autre entreprise n’égale notre profondeur en recherche et technologie », a affirmé Kannappan. « Notre stratégie est unique, ancrée dans la formation de modèles d'évaluation, la pionnière des techniques d'alignement et la publication de recherches. »

Patronus AI a gagné en traction auprès de plusieurs entreprises du Fortune 500 dans des secteurs tels que l'automobile, l'éducation, la finance et les logiciels, les aidant à intégrer les LLM en toute sécurité. Avec l'injection de nouveau capital, Patronus prévoit d'élargir ses équipes de recherche, d'ingénierie et de vente tout en développant des benchmarks supplémentaires.

Si Patronus réalise sa vision, les évaluations automatisées des LLM pourraient devenir essentielles pour les entreprises, à l'instar des audits de sécurité qui accélèrent l'adoption du cloud. Qian envisage un avenir où tester des modèles avec Patronus devient routine, semblable aux tests unitaires pour le code.

« Notre plateforme est polyvalente, applicable dans divers domaines, du juridique à la santé », a-t-elle expliqué. « Nous visons à aider les entreprises de tous les secteurs à exploiter les LLM tout en garantissant leur conformité à leurs exigences spécifiques. »

Malgré la complexité de la validation des performances des LLM en raison de leur nature de boîte noire et de la vastitude de leurs possibilités de sortie, Patronus s'engage à faire avancer l'évaluation de l'IA. En repoussant les limites des tests automatisés, ils visent à faciliter le déploiement responsable des LLM dans des applications concrètes.

« Automatiser la mesure de performance des LLM est un défi en raison de la diversité des comportements que ces modèles génératifs peuvent exhiber », a reconnu Kannappan. « Cependant, notre méthodologie axée sur la recherche nous permet d’identifier de manière fiable et scalable des erreurs que les tests manuels ne peuvent tout simplement pas détecter. »

Most people like

Find AI tools in YBX