Au cours de la dernière décennie, le paysage des outils et de l'infrastructure des données a connu une transformation spectaculaire. En tant que fondateur d'une entreprise d'infrastructure de données cloud depuis 2009 et d'une communauté de rencontre pour les ingénieurs données en 2013, j'ai été témoin de l'évolution de cette communauté bien avant que "ingénieur données" ne devienne un titre de poste formel. Cette perspective unique me permet de réfléchir aux leçons tirées du passé et à leur influence sur le développement de la nouvelle ère de l'IA.
Dans le domaine de l'anthropologie technologique, 2013 a marqué la transition de l'ère du "big data" à celle du "modern data stack" (MDS). Pendant la période du big data, la croyance dominante était que plus de données équivalaient à de meilleures analyses, détenant prétendument la clé pour libérer de nouvelles valeurs commerciales.
En tant que consultant stratégique pour une grande entreprise internet, j'ai été chargé de développer une stratégie pour analyser le volume massif de données issues de milliards de requêtes DNS quotidiennes afin de découvrir un potentiel insight de 100 millions de dollars. Malheureusement, malgré nos efforts, nous n'avons pu identifier d'insights dans le calendrier limité du projet. Cette expérience a renforcé une leçon cruciale : bien que stocker d'énormes quantités de données soit relativement simple, extraire des insights significatifs est une entreprise complexe et gourmande en ressources.
Conscients de ce défi, les entreprises se sont précipitées pour renforcer leurs infrastructures de données, guidées par le mantra selon lequel des insights ne pouvaient être générés que si leurs systèmes de données étaient optimisés. Cette précipitation a conduit à une explosion des outils de données, les fournisseurs affirmant offrir la pièce manquante d'une pile de données complète capable de générer ces insights insaisissables.
Le terme "explosion" n'est pas employé à la légère ; selon le paysage 2024 MAD (Machine Learning, IA et Données) de Matt Turck, le nombre d'entreprises proposant des outils d'infrastructure de données a grimpé de 139 en 2012 à 2 011 cette année—une augmentation stupéfiante de 14,5 fois.
Le Défi de la Saturation des Outils
Plusieurs facteurs ont façonné le paysage actuel des données. De nombreuses entreprises ont migré leurs charges de travail sur site vers le cloud, des fournisseurs de MDS offrant des services gérés conçus pour la fiabilité, la flexibilité et des solutions évolutives.
Cependant, alors que les entreprises élargissaient leur éventail d'outils pendant la période de politique des taux d'intérêt nuls (ZIRP), des défis significatifs sont apparus. La complexité d'utiliser plusieurs outils disparates, les difficultés d'intégration et l'utilisation sous-optimale des services cloud ont remis en question la capacité du MDS à tenir ses promesses.
De nombreuses entreprises du Fortune 500 ont investi massivement dans l'infrastructure des données sans une stratégie cohérente pour en réaliser la valeur. L'attrait de collecter une grande variété d'outils a conduit à des redondances, les équipes au sein d'une même organisation utilisant souvent des plateformes similaires, telles que Tableau et Looker, entraînant des coûts exorbitants sans bénéfices correspondants.
Malgré l'éclatement éventuel de la bulle ZIRP, le paysage MAD continue de s'élargir. Pourquoi cela ?
La Nouvelle Pile IA
De nombreuses entreprises de création d'outils de données, bien capitalisées pendant l'ère ZIRP, restent opérationnelles malgré des budgets d'entreprise plus serrés et une demande du marché en baisse. Un facteur clé est l'intérêt fort pour l'IA, qui a donné naissance à une nouvelle vague d'outils de données sans avoir subi une consolidation de marché substantielle de l'ère précédente.
La "pile IA" représente un paradigme fondamentalement nouveau. Alors que les piles de données traditionnelles étaient conçues pour des données structurées, la nouvelle vague d'IA s'épanouit sur des ensembles de données massifs non structurés—textes, images et vidéos. De plus, les modèles d'IA générative se distinguent des anciens modèles d'apprentissage automatique déterministes en produisant des résultats variés même avec des entrées inchangées, comme le montre des outils tels que ChatGPT.
Compte tenu de ces différences, les développeurs doivent adopter de nouvelles méthodologies pour évaluer et surveiller les résultats des modèles d'IA, garantissant une gouvernance éthique et une intégration efficace. Les principaux domaines à considérer comprennent l'orchestration des agents (communication entre modèles), le développement de modèles spécialisés pour des cas d'utilisation de niche, et des outils innovants de flux de travail pour la curation des ensembles de données.
De nombreuses start-ups s'attaquent déjà à ces défis, entraînant l'émergence d'outils révolutionnaires au sein de la nouvelle pile IA.
Construire Plus Intelligemment dans la Nouvelle Ére IA
Alors que nous naviguons dans cette nouvelle ère de l'IA, il est crucial de reconnaître notre passé. Les données servent de fondement à l'IA, et la myriade d'options d'outils disponibles aujourd'hui a ouvert la voie à un traitement des données comme un actif vital. Pourtant, nous devons nous demander comment éviter les pièges des excès passés en avançant.
Une approche consiste pour les entreprises à préciser la valeur spécifique qu'elles attendent de chaque outil de données ou d'IA particulier. L'engagement excessif envers les tendances technologiques sans objectif stratégique peut être préjudiciable, surtout alors que le battage médiatique autour de l'IA engloutit à la fois l'attention et les budgets. Il est essentiel de privilégier les outils démontrant une valeur claire et un retour sur investissement mesurable.
Les fondateurs doivent également être prudents en évitant de créer des solutions "me too". Avant de lancer un nouvel outil sur un marché saturé, ils doivent évaluer si leur équipe possède des insights uniques et une expertise différenciée qui ajoutent réellement de la valeur.
Les investisseurs, quant à eux, doivent évaluer de manière critique où la valeur va s'accumuler dans l'ensemble de la pile d'outils de données et d'IA avant d'investir. S'appuyer uniquement sur le pedigree d'un fondateur issu d'entreprises prestigieuses peut entraîner un marché saturé d'articles non différenciés.
Une question percutante a été posée lors d'une récente conférence : "Quel est le coût pour votre entreprise si une seule ligne de vos données est inexacte ?" Cela incite les entreprises à établir un cadre clair pour quantifier la valeur des données et des outils de données au sein de leurs opérations.
Sans cette clarté, aucun investissement dans des outils de données et d'IA ne résoudra la confusion existante.
Pete Soderling est le fondateur et partenaire général de Zero Prime Ventures.