Nourrir la Bête : Comment un Marché des Données en Plein Essor Alimente la Demande Insatiable pour les LLMs

La semaine dernière, j'ai discuté des perspectives de Mark Zuckerberg sur la stratégie AI de Meta, mettant en avant un atout majeur : un vaste ensemble de données internes en constante expansion qui entraîne ses modèles Llama. Zuckerberg a déclaré que Facebook et Instagram hébergent "des centaines de milliards d'images publiquement partagées et des dizaines de milliards de vidéos publiques", surpassant ainsi la taille de l'ensemble de données Common Crawl. Les utilisateurs partagent également de nombreuses publications textuelles publiques sur ces plateformes.

Les Besoins Infinis en Données de l'IA

Cependant, les données utilisées pour entraîner des modèles comme ceux de Meta, OpenAI ou Anthropic ne sont que le point de départ pour comprendre les exigences en matière de données des modèles de langage large (LLMs) d'aujourd'hui. La demande continue d'inférence—l'utilisation des LLMs pour diverses applications—crée un cycle de consommation de données sans fin. On pourrait le comparer au jeu classique Hungry Hungry Hippos, où les modèles d'IA rassemblent sans relâche des données pour fonctionner efficacement.

Ensembles de Données Spécifiques pour une Inference AI Efficace

Brad Schneider, fondateur et PDG de Nomad Data, a souligné que "[l'inférence est] le marché le plus important, et je pense que les gens ne réalisent pas cela." Nomad Data fonctionne comme une plateforme de découverte de données, connectant plus de 2 500 fournisseurs de données à des entreprises cherchant des ensembles de données spécifiques pour leurs besoins d'inférence LLM. Au lieu d'agir en tant que courtier de données, Nomad permet aux entreprises de rechercher des données en langage naturel. Par exemple, un utilisateur pourrait demander "un flux de données de chaque toit en construction aux États-Unis chaque mois." Schneider a expliqué que de nombreux utilisateurs ne connaissent pas la nomenclature exacte des ensembles de données nécessaires. Les LLMs de Nomad aident à identifier les fournisseurs pertinents capables de fournir les données.

Correspondances de Données Instantanées

Le rapide appariement de l'offre et de la demande illustre l'efficacité de la plateforme. Schneider se rappelle d'une compagnie d'assurance qui a listé ses données sur Nomad : presque immédiatement, une autre entreprise a cherché des données détaillées sur les accidents de voiture, sans savoir que ces informations relevaient des "données d'assurance." "C'est un peu la magie," a noté Schneider.

L'Importance d'un Alimentation Continue en Données

Bien que les données d'entraînement soient essentielles, Schneider a souligné que les modèles sont rarement entraînés, tandis que l'inférence se produit continuellement—parfois des milliers de fois par minute. Cette demande persistante de nouvelles données est cruciale pour les entreprises utilisant l'IA générative, surtout pour créer des insights précieux. "Vous devez lui fournir quelque chose pour qu'elle fasse quelque chose d'intéressant," a-t-il expliqué.

Identifier la bonne "nourriture" de données reste un défi pour les grandes entreprises. Dans un premier temps, utiliser des données internes est essentiel, mais intégrer des ensembles de données externes de haute qualité a historiquement été difficile. Les organisations ont souvent peiné à extraire des informations utiles de vastes archives, comme des millions de PDF. Heureusement, les LLMs peuvent désormais analyser rapidement des données textuelles provenant de diverses sources, y compris des dossiers consommateurs et des dépôts gouvernementaux.

Débloquer la Valeur de Données Précédemment Inexploitables

Schneider a comparé cette transformation à la découverte d'un "trésor enseveli." Les données autrefois jugées inutiles sont devenues très précieuses. De plus, les données sont essentielles pour personnaliser l'entraînement des LLMs. Par exemple, pour développer un modèle de reconnaissance des reçus japonais, un ensemble de données de tels reçus est nécessaire. De même, pour créer un modèle identifiant des publicités dans des images de terrains de football, un ensemble de vidéos pertinentes est requis.

Des Entreprises Médias Monétisent leurs Données

Les grandes entreprises médias commencent également à licencier leurs données aux entreprises de LLM. OpenAI a récemment associé avec Axel Springer, tandis que des négociations avec le New York Times se sont conclues par un procès. Nomad Data collabore activement avec des médias et d'autres entreprises pour étendre son réseau de fournisseurs de données. Schneider a rapporté que Nomad a engagé plusieurs sociétés — allant des constructeurs automobiles aux compagnies d'assurance — qui listent leurs données sur la plateforme.

Une Demande Continue pour les Données LLM

En essence, la chaîne d'approvisionnement en données LLM est un cercle auto-renforçant. Nomad Data utilise des LLMs pour identifier de nouveaux fournisseurs de données et aide ensuite les utilisateurs à localiser les données requises. Ces données sont ensuite utilisées avec des API LLM pour l'entraînement et l'inférence. "Les LLMs sont cruciaux pour notre activité," a souligné Schneider. "À mesure que nous collectons plus de données textuelles, nous apprenons continuellement à exploiter ces ensembles de données divers."

Les données d'entraînement AI ne représentent qu'un petit segment du marché global, l'inférence LLM et l'entraînement personnalisé présentant les opportunités les plus passionnantes. Schneider a remarqué : "Maintenant, je peux acquérir des données qui auparavant n'avaient aucune valeur, ce qui sera déterminant pour construire mon entreprise, grâce à ces nouvelles technologies."

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles