Les entreprises affichent un optimisme croissant envers l'IA générative, investissant des milliards dans le développement d'applications allant des chatbots aux outils de recherche pour divers cas d'utilisation. Alors que presque toutes les grandes entreprises ont une initiative d'IA générative en cours, il existe une distinction cruciale entre l'engagement envers l'IA et son déploiement réussi en production.
Aujourd'hui, la startup californienne Maxim, fondée par d'anciens dirigeants de Google et Postman, Vaibhavi Gangwar et Akshay Deo, a lancé une plateforme d'évaluation et d'observation de bout en bout visant à combler cette lacune. L’entreprise a également annoncé un financement de 3 millions de dollars de la part d'Elevation Capital et d'autres investisseurs.
Maxim s'attaque à un défi majeur rencontré par les développeurs lors de la création d'applications alimentées par des modèles de langage (LLM) : le suivi des différents éléments tout au long du cycle de développement. Même de petites erreurs peuvent compromettre la fiabilité et la confiance du projet, entraînant des retards dans la livraison. La plateforme de Maxim met l'accent sur les tests et l'amélioration de la qualité et de la sécurité de l'IA à la fois avant la publication et après la mise en production, établissant une norme qui aide les organisations à optimiser le cycle de vie de leurs applications d'IA et à livrer rapidement des produits de haute qualité.
Défis du développement d'applications d'IA générative
Historiquement, le développement logiciel suivait une approche déterministe avec des pratiques standardisées pour les tests et l'itération, offrant aux équipes des voies claires pour améliorer qualité et sécurité. Cependant, l'introduction de l'IA générative a introduit de nombreuses variables, créant un paradigme non déterministe. Les développeurs doivent gérer divers éléments, allant du modèle utilisé au cadrage des données et des questions des utilisateurs, tout en garantissant qualité, sécurité et performance.
Les organisations répondent généralement à ces défis d'évaluation de deux manières principales : en embauchant des talents pour superviser chaque variable ou en développant des outils internes, deux options pouvant entraîner des coûts accrus et détourner l'attention des fonctions essentielles de l'entreprise.
Conscients de ce besoin, Gangwar et Deo ont lancé Maxim pour relier les couches de modèle et d'application de l'IA générative. La plateforme offre une évaluation complète tout au long du cycle de développement de l'IA, de l'ingénierie des requêtes et des tests pré-lancement à la surveillance et à l'optimisation post-publication.
Gangwar décrit la plateforme de Maxim comme étant composée de quatre composants clés : une suite d'expérimentation, un kit d'évaluation, des capacités d'observation et un moteur de données.
La suite d'expérimentation inclut un CMS pour les requêtes, un IDE, un constructeur de flux de travail visuel et des connecteurs vers des sources de données externes, permettant aux équipes d'itérer efficacement sur les requêtes, les modèles et les paramètres. Par exemple, les équipes peuvent expérimenter différentes requêtes sur divers modèles pour un chatbot de service client.
Le kit d'évaluation propose un cadre unifié pour les évaluations dirigées par l'IA et celles humaines, permettant aux équipes d'évaluer quantitativement les améliorations ou les régressions grâce à des tests complets. Les résultats sont visualisés dans des tableaux de bord couvrant des indicateurs tels que le ton, la précision, la toxicité et la pertinence.
L'observation est essentielle dans la phase post-publication, permettant le suivi en temps réel des journaux de production et des évaluations automatisées pour identifier et résoudre les problèmes en direct, garantissant le respect des normes de qualité.
Selon Gangwar, "les utilisateurs peuvent établir des contrôles automatiques pour divers signaux de qualité, de sécurité et de sûreté sur les journaux de production. Ils peuvent également définir des alertes en temps réel pour les régressions dans les métriques les plus importantes, telles que la performance, le coût et la qualité."
En utilisant les informations de la suite d'observation, les utilisateurs peuvent rapidement résoudre les problèmes. Si la qualité des données est en cause, le moteur de données permet une curation et un enrichissement sans faille des ensembles de données pour un ajustement optimal.
Déploiements d'applications accélérés
Bien que Maxim en soit encore à ses débuts, la société affirme avoir assisté "une poignée de douzaines" de partenaires précoces dans les tests, l'itération et le déploiement de leurs produits d'IA à un rythme cinq fois plus rapide qu'auparavant, ciblant des secteurs tels que la technologie B2B, les services d'IA générative, le secteur bancaire, financier et d'assurance (BFSI), ainsi que l'Edtech — des industries où les défis d'évaluation sont particulièrement aigus. À mesure que l'entreprise étend ses opérations, elle prévoit d'améliorer les capacités de sa plateforme, en se concentrant sur les clients du marché intermédiaire et des grandes entreprises.
La plateforme de Maxim comprend également des fonctionnalités orientées vers l'entreprise telles que des contrôles d'accès basés sur les rôles, la conformité, la collaboration d'équipe et des options de déploiement dans un cloud privé virtuel.
Bien que l'approche de Maxim en matière de tests et d'évaluation standardisés soit remarquable, elle doit faire face à des défis pour rivaliser avec des concurrents bien financés tels que Dynatrace et Datadog, qui font évoluer en permanence leurs offres.
Gangwar souligne que de nombreux concurrents se concentrent soit sur la surveillance des performances, soit sur la qualité, soit sur l'observation, tandis que Maxim vise à consolider tous les besoins d'évaluation en une seule plateforme intégrée. "Le cycle de développement nécessite une gestion holistique des besoins liés aux tests, ce qui, selon nous, conduira à des améliorations significatives de la productivité et de la qualité pour des applications durables," affirme-t-elle.
En regardant vers l'avenir, Maxim a l'intention d'élargir son équipe et ses capacités opérationnelles tout en forgeant davantage de partenariats avec des entreprises axées sur le développement de produits d'IA. Les améliorations futures pourraient inclure des évaluations spécifiques à un domaine pour la qualité et la sécurité, ainsi que le développement d'un moteur de données multimodal.