Lorsque ChatGPT a été lancé il y a plus d'un an, il a offert aux utilisateurs d’Internet un assistant IA toujours disponible pour diverses tâches, allant de la génération de contenus en langage naturel comme des essais à l'analyse d'informations complexes. Cette montée en puissance a mis en évidence la technologie performante qui le sous-tend : la série GPT de modèles de langage de grande taille (LLMs).
Aujourd'hui, les LLMs, y compris la série GPT, ne se contentent pas d'améliorer des tâches individuelles ; ils révolutionnent les opérations de nombreuses entreprises. Ces dernières utilisent des API de modèles commerciaux et des solutions open-source pour automatiser des tâches répétitives, améliorer l'efficacité et rationaliser des fonctions clés. Imaginez pouvoir interagir avec l'IA pour concevoir des campagnes publicitaires pour les équipes marketing ou accélérer le support client en accédant rapidement à la bonne base de données.
La Transformation de la Gestion des Données
Les données sont essentielles au fonctionnement des grands modèles de langage. Lorsqu'ils sont entraînés correctement, ces modèles permettent aux équipes de manipuler et d'analyser leurs données de manière efficace. En gagnant en popularité au cours de l'année passée, ChatGPT et ses concurrents ont incité de nombreuses entreprises à intégrer l'IA générative dans leurs flux de travail de données, simplifiant ainsi l'expérience utilisateur et permettant aux clients d'économiser du temps et des ressources sur leurs tâches principales.
Un des développements les plus marquants a été l'introduction de capacités de requêtes conversationnelles. Cette fonctionnalité permet aux utilisateurs d'interagir avec des données structurées (organisées en lignes et en colonnes) en utilisant un langage naturel, éliminant le besoin de rédiger des requêtes SQL complexes. Grâce à cette fonctionnalité text-to-SQL, même les utilisateurs non techniques peuvent saisir des requêtes en langage courant et obtenir des informations de leurs données.
Plusieurs fournisseurs clés ont été pionniers dans ce domaine, notamment Databricks, Snowflake, Dremio, Kinetica et ThoughtSpot. Kinetica, qui utilisait initialement ChatGPT, emploie désormais son propre modèle LLM. Snowflake propose deux outils principaux : un copilote pour des requêtes de données conversationnelles et la génération de requêtes SQL, ainsi qu'un outil d'IA Document qui extrait des informations de jeux de données non structurés tels que des images et des PDF. Databricks fonctionne de manière similaire avec sa solution « LakehouseIQ ».
Des startups émergentes se concentrent également sur l'analyse basée sur l'IA. Par exemple, DataGPT, basé en Californie, fournit un analyste IA dédié qui exécute des milliers de requêtes en temps réel, livrant des résultats dans un format conversationnel.
Soutenir la Gestion des Données et les Initiatives d'IA
En plus de générer des insights, les LLMs facilitent de plus en plus les tâches de gestion des données, essentielles à la construction de produits IA robustes. En mai, Informatica a lancé Claire GPT, un outil d'IA conversationnelle multi-LLM qui aide les utilisateurs à découvrir, gérer et interagir avec leurs actifs de l'Intelligent Data Management Cloud (IDMC) en utilisant des entrées en langage naturel. Claire GPT exécute diverses fonctions, comprenant la découverte de données, la création de pipelines, l'exploration de métadonnées et le contrôle de qualité.
Pour aider davantage les équipes dans le développement d'offres d'IA, Refuel AI a introduit un LLM sur mesure pour des tâches d'étiquetage et d'enrichissement des données. Des recherches publiées en octobre 2023 indiquent que les LLMs peuvent également réduire efficacement le bruit dans les ensembles de données, une étape essentielle pour garantir la qualité de l'IA.
Les LLMs s'appliquent également à l'ingénierie des données, notamment en matière d'intégration et d'orchestration des données. Ils peuvent générer le code nécessaire pour convertir différentes types de données, se connecter à diverses sources ou créer des modèles YAML et Python pour construire des DAGs sur Airflow.
Perspectives d'Avenir
En seulement un an, les LLMs ont eu un impact significatif sur le paysage des entreprises. À mesure que ces modèles progresseront en 2024, nous pouvons nous attendre à encore plus d'applications à travers la gestion des données, y compris le domaine émergent de l’observabilité des données. Monte Carlo a lancé Fix with AI, un outil qui identifie les problèmes dans les pipelines de données et recommande du code correctif. De même, Acceldata a acquis Bewgle pour améliorer l'intégration des LLMs pour l’observabilité des données.
À mesure que de nouvelles applications émergent, il est crucial que les équipes s'assurent que leurs modèles linguistiques, qu'ils soient développés en interne ou ajustés, maintiennent des performances élevées. Même de petites erreurs peuvent entraîner des impacts significatifs en aval, perturbant potentiellement l'expérience client.