Nourrir la Bête : Comment un Marché des Données en Plein Essor Alimente la Demande Insatiable pour les LLMs

Home Actualités IA Nourrir la Bête : Comment un Marché des Données en Plein Essor Alimente la Demande Insatiable pour les LLMs

Updated on octobre 29 2024

La semaine dernière, j'ai discuté des perspectives de Mark Zuckerberg sur la stratégie AI de Meta, mettant en avant un atout majeur : un vaste ensemble de données internes en constante expansion qui entraîne ses modèles Llama. Zuckerberg a déclaré que Facebook et Instagram hébergent "des centaines de milliards d'images publiquement partagées et des dizaines de milliards de vidéos publiques", surpassant ainsi la taille de l'ensemble de données Common Crawl. Les utilisateurs partagent également de nombreuses publications textuelles publiques sur ces plateformes.

Les Besoins Infinis en Données de l'IA

Cependant, les données utilisées pour entraîner des modèles comme ceux de Meta, OpenAI ou Anthropic ne sont que le point de départ pour comprendre les exigences en matière de données des modèles de langage large (LLMs) d'aujourd'hui. La demande continue d'inférence—l'utilisation des LLMs pour diverses applications—crée un cycle de consommation de données sans fin. On pourrait le comparer au jeu classique Hungry Hungry Hippos, où les modèles d'IA rassemblent sans relâche des données pour fonctionner efficacement.

Ensembles de Données Spécifiques pour une Inference AI Efficace

Brad Schneider, fondateur et PDG de Nomad Data, a souligné que "[l'inférence est] le marché le plus important, et je pense que les gens ne réalisent pas cela." Nomad Data fonctionne comme une plateforme de découverte de données, connectant plus de 2 500 fournisseurs de données à des entreprises cherchant des ensembles de données spécifiques pour leurs besoins d'inférence LLM. Au lieu d'agir en tant que courtier de données, Nomad permet aux entreprises de rechercher des données en langage naturel. Par exemple, un utilisateur pourrait demander "un flux de données de chaque toit en construction aux États-Unis chaque mois." Schneider a expliqué que de nombreux utilisateurs ne connaissent pas la nomenclature exacte des ensembles de données nécessaires. Les LLMs de Nomad aident à identifier les fournisseurs pertinents capables de fournir les données.

Correspondances de Données Instantanées

Le rapide appariement de l'offre et de la demande illustre l'efficacité de la plateforme. Schneider se rappelle d'une compagnie d'assurance qui a listé ses données sur Nomad : presque immédiatement, une autre entreprise a cherché des données détaillées sur les accidents de voiture, sans savoir que ces informations relevaient des "données d'assurance." "C'est un peu la magie," a noté Schneider.

L'Importance d'un Alimentation Continue en Données

Bien que les données d'entraînement soient essentielles, Schneider a souligné que les modèles sont rarement entraînés, tandis que l'inférence se produit continuellement—parfois des milliers de fois par minute. Cette demande persistante de nouvelles données est cruciale pour les entreprises utilisant l'IA générative, surtout pour créer des insights précieux. "Vous devez lui fournir quelque chose pour qu'elle fasse quelque chose d'intéressant," a-t-il expliqué.

Identifier la bonne "nourriture" de données reste un défi pour les grandes entreprises. Dans un premier temps, utiliser des données internes est essentiel, mais intégrer des ensembles de données externes de haute qualité a historiquement été difficile. Les organisations ont souvent peiné à extraire des informations utiles de vastes archives, comme des millions de PDF. Heureusement, les LLMs peuvent désormais analyser rapidement des données textuelles provenant de diverses sources, y compris des dossiers consommateurs et des dépôts gouvernementaux.

Débloquer la Valeur de Données Précédemment Inexploitables

Schneider a comparé cette transformation à la découverte d'un "trésor enseveli." Les données autrefois jugées inutiles sont devenues très précieuses. De plus, les données sont essentielles pour personnaliser l'entraînement des LLMs. Par exemple, pour développer un modèle de reconnaissance des reçus japonais, un ensemble de données de tels reçus est nécessaire. De même, pour créer un modèle identifiant des publicités dans des images de terrains de football, un ensemble de vidéos pertinentes est requis.

Des Entreprises Médias Monétisent leurs Données

Les grandes entreprises médias commencent également à licencier leurs données aux entreprises de LLM. OpenAI a récemment associé avec Axel Springer, tandis que des négociations avec le New York Times se sont conclues par un procès. Nomad Data collabore activement avec des médias et d'autres entreprises pour étendre son réseau de fournisseurs de données. Schneider a rapporté que Nomad a engagé plusieurs sociétés — allant des constructeurs automobiles aux compagnies d'assurance — qui listent leurs données sur la plateforme.

Une Demande Continue pour les Données LLM

En essence, la chaîne d'approvisionnement en données LLM est un cercle auto-renforçant. Nomad Data utilise des LLMs pour identifier de nouveaux fournisseurs de données et aide ensuite les utilisateurs à localiser les données requises. Ces données sont ensuite utilisées avec des API LLM pour l'entraînement et l'inférence. "Les LLMs sont cruciaux pour notre activité," a souligné Schneider. "À mesure que nous collectons plus de données textuelles, nous apprenons continuellement à exploiter ces ensembles de données divers."

Les données d'entraînement AI ne représentent qu'un petit segment du marché global, l'inférence LLM et l'entraînement personnalisé présentant les opportunités les plus passionnantes. Schneider a remarqué : "Maintenant, je peux acquérir des données qui auparavant n'avaient aucune valeur, ce qui sera déterminant pour construire mon entreprise, grâce à ces nouvelles technologies."

Transformer les ressources humaines : ADP Assist apporte l'innovation de l'IA

Roblox surmonte les barrières linguistiques grâce à la traduction instantanée par IA.

Most people like

Creaitor.ai

60.7K

Découvrez le potentiel transformateur d'une plateforme de rédaction de contenu alimentée par l'IA, conçue pour améliorer votre processus d'écriture. En tirant parti d'une intelligence artificielle avancée, cet outil innovant simplifie la création de contenu, vous permettant de produire des articles, des billets de blog et des textes marketing de haute qualité sans effort. Que vous soyez un écrivain aguerri ou un professionnel occupé, cette plateforme vous permet de générer rapidement du contenu engageant tout en préservant votre voix unique. Élevez votre expérience d'écriture dès aujourd'hui avec la dernière technologie en matière d'IA !

Rédaction IA AI Content Generator

FilePower AI

16.9K

Découvrez la puissance d'un outil alimenté par l'IA, conçu spécifiquement pour une gestion et un traitement efficaces des documents. Cette solution innovante simplifie votre flux de travail, améliore l'organisation et renforce l'accessibilité, devenant essentielle pour les entreprises souhaitant optimiser leurs processus de gestion documentaire. Explorez comment cet outil d'IA peut transformer votre manière de gérer et traiter les documents, augmentant ainsi votre productivité et votre efficacité.

Gestion documentaire IA AI PDF

AnySummary

67.1K

Présentation d'AnySummary : un outil innovant alimenté par l'IA, conçu pour résumer facilement du texte, de l'audio et du contenu vidéo. Grâce à une technologie de pointe, AnySummary simplifie votre consommation d'information, rendant plus accessible que jamais la compréhension des points clés issus de différents formats médiatiques.

IA AI Content Detector

TopMediai

1.1M

Découvrez la puissance des outils de médias en ligne propulsés par l'IA, conçus pour améliorer vos contenus vidéo, audio et photo. Ces solutions innovantes utilisent l'intelligence artificielle pour simplifier la production, améliorer la qualité et stimuler la créativité, facilitant ainsi l'engagement de votre audience comme jamais auparavant.

Outils d'IA AI Audio Enhancer

Find AI tools in YBX