L'essor des grands modèles de langage (LLM) a suscité un intérêt croissant pour les modèles d'embedding, ces systèmes d'apprentissage profond qui transforment divers types de données en représentations numériques. Les modèles d'embedding sont essentiels pour la génération augmentée par récupération (RAG), une application clé des LLM dans les entreprises. Cependant, leur potentiel va bien au-delà du RAG. L'année passée a été marquée par des avancées majeures dans les applications d'embedding, et 2024 devrait apporter encore plus d'innovations.
Fonctionnement des Embeddings
Les embeddings convertissent des données, comme des images ou des documents textuels, en listes de nombres représentant leurs caractéristiques les plus significatives. Entraînés sur de vastes ensembles de données, les modèles d'embedding apprennent à différencier les types de données. En vision par ordinateur, ils mettent en avant des caractéristiques telles que les objets, les formes et les couleurs. Dans les applications textuelles, ils capturent des informations sémantiques relatives aux concepts, lieux, personnes, organisations, et plus encore.
Dans les applications RAG, les modèles d'embedding codent les caractéristiques des documents d’une entreprise, stockant chaque embedding dans une base de données vectorielle. Lorsqu'une nouvelle requête est introduite, le système calcule son embedding et récupère les documents avec des valeurs similaires. Le contenu pertinent des documents est alors intégré à la requête, guidant le LLM à générer des réponses informées par le contexte. Ce processus optimisé personnalise les LLM pour fournir des informations basées sur des données propriétaires non intégrées dans leurs données d'entraînement, résolvant des problèmes tels que les hallucinations, où les LLM produisent des faits inexactes en raison d'informations insuffisantes.
Au-delà du RAG de Base
Bien que le RAG ait considérablement amélioré les fonctionnalités des LLM, les avantages de la récupération et des embeddings s'étendent bien au-delà de la simple correspondance de documents. “Les embeddings sont principalement utilisés pour la récupération et pour souvent améliorer les visualisations de concepts”, déclare Jerry Liu, PDG de LlamaIndex. “Cependant, la récupération est beaucoup plus large et peut soutenir diverses applications d'entreprise.”
Selon Liu, la récupération est un élément fondamental dans tout cas d'utilisation de LLM. LlamaIndex développe des outils et des cadres pour connecter les requêtes de LLM avec des tâches diverses, telles que l'interaction avec des bases de données SQL et l'automatisation des flux de travail. “La récupération est cruciale pour enrichir les LLM avec un contexte pertinent, et je m'attends à ce que la plupart des applications d'entreprise nécessitent une forme de récupération,” ajoute Liu.
Les embeddings trouvent également leur utilité dans des applications au-delà de la récupération de documents. Des chercheurs de l'Université de l'Illinois et de l'Université Tsinghua ont développé des techniques utilisant des embeddings pour sélectionner les sous-ensembles de données d'entraînement les plus pertinents et diversifiés pour coder des LLM, réduisant ainsi considérablement les coûts d'entraînement tout en maintenant une haute qualité.
Embeddings dans les Applications Entreprises
“Les embeddings vectoriels permettent de travailler avec toute donnée non structurée ou semi-structurée. La recherche sémantique — et le RAG en est une forme — n'est qu'une application,” affirme Andre Zayarni, PDG de Qdrant. “Élargir au-delà des données textuelles pour inclure des images, de l'audio et de la vidéo est crucial, et les nouveaux transformateurs multimodaux faciliteront cela.” Qdrant implémente déjà des modèles d'embedding dans diverses applications, notamment la détection d'anomalies, les systèmes de recommandation et l'analyse de séries chronologiques.
“Avec de nombreux cas d'utilisation inexploités, le nombre d'applications devrait augmenter à mesure que de nouveaux modèles d'embedding émergeront,” souligne Zayarni. De plus en plus d'entreprises exploitent des modèles d'embedding pour examiner de grandes quantités de données non structurées, leur permettant de catégoriser les retours clients et les publications sur les réseaux sociaux pour identifier les tendances et les évolutions de sentiment. “Les embeddings sont idéaux pour les entreprises souhaitant analyser de grands ensembles de données pour détecter des tendances et obtenir des insights,” explique Nils Reimers, Responsable des Embeddings chez Cohere.
Affinage des Embeddings
En 2023, des progrès ont été réalisés dans l'affinage des LLM avec des ensembles de données personnalisées ; cependant, ce processus reste complexe. Peu d'entreprises disposant des données et de l'expertise nécessaires parviennent à affiner efficacement. “Il y aura probablement un flux allant du RAG à l'affinage — d'abord en utilisant le RAG pour l'accessibilité, puis en optimisant par l'affinage,” anticipe Liu. “Bien que davantage d'entreprises devraient affiner leurs LLM et embeddings à mesure que les modèles open-source s'améliorent, leur nombre restera probablement inférieur à ceux utilisant le RAG, à moins que l'affinage ne devienne considérablement plus simple.”
L'affinage des embeddings présente ses propres défis, notamment la sensibilité aux changements de données. L'entraînement sur des requêtes courtes peut nuire aux performances sur des requêtes plus longues, et vice versa. Si les embeddings sont entraînés sur des questions de type « quoi », ils peuvent avoir des difficultés avec les questions de type « pourquoi ». “Les entreprises ont besoin d'équipes d'IA robustes en interne pour un affinage efficace des embeddings, ce qui rend les solutions prêtes à l'emploi plus pratiques dans de nombreux cas,” conseille Reimers.
Néanmoins, des avancées ont été réalisées pour rationaliser le processus d'entraînement des modèles d'embedding. Une étude de Microsoft suggère que des modèles pré-entraînés, comme le Mistral-7B, peuvent être affinés pour des tâches d'embedding en utilisant un ensemble de données compact généré par un puissant LLM, simplifiant ainsi les méthodes traditionnelles gourmandes en ressources.
Étant donné les avancées rapides des LLM et des modèles d'embedding, nous pouvons nous attendre à des développements encore plus passionnants dans les mois à venir.