AI21 Labs Optimise les Transformers d'IA Générative grâce à la Collaboration avec Jamba

Depuis la publication de l'article de recherche révolutionnaire "Attention is All You Need" en 2017, les transformateurs occupent une place centrale dans le paysage de l'IA générative. Cependant, les transformateurs ne sont pas la seule approche viable en matière d'IA générative. AI21 Labs a introduit un nouveau cadre appelé “Jamba”, qui vise à dépasser les transformateurs traditionnels.

Jamba fusionne le modèle Mamba, reposant sur le modèle d'État structuré (Structured State Space model - SSM), avec une architecture de transformateur pour créer une solution d'IA générative optimisée. Le terme "Jamba" signifie Joint Attention and Mamba Architecture, conçu pour exploiter les forces du SSM et des transformateurs. Ce modèle est publié en open source sous la licence Apache 2.0.

Bien que Jamba ne soit pas conçu pour remplacer les modèles de langage de grande taille basés sur des transformateurs (LLMs), il devrait servir comme un complément précieux dans des applications spécifiques. AI21 Labs affirme que Jamba peut surpasser les modèles de transformateurs traditionnels dans les tâches de raisonnement génératif, comme le démontrent les benchmarks tels que HellaSwag. Cependant, il n'atteint pas encore les performances des modèles de transformateurs sur des benchmarks critiques tels que le Massive Multitask Language Understanding (MMLU), qui évalue les capacités de résolution de problèmes.

AI21 Labs se spécialise dans l'IA générative pour les applications d'entreprise, ayant récemment levé 155 millions de dollars en août 2023 pour faire avancer ses initiatives. Parmi ses offres pour les entreprises, on trouve Wordtune, un outil conçu pour aider les organisations à générer du contenu qui correspond à leur ton et à leur image de marque. En 2023, la société a reporté qu'elle avait réussi à rivaliser avec le géant de l'IA générative OpenAI pour attirer des clients d'entreprise.

Traditionnellement, la technologie LLM d'AI21 Labs a utilisé une architecture de transformateur, y compris sa famille Jurassic-2 LLM, qui fait partie de la plateforme de traitement du langage naturel (NLP) AI21 Studio et disponible via des APIs pour l'intégration dans les entreprises. Cependant, Jamba représente une évolution vers un modèle hybride combinant SSM et transformateur.

Malgré le rôle prépondérant des transformateurs dans l'IA générative, ils présentent certaines limitations. Un problème majeur est que, à mesure que les fenêtres de contexte s'élargissent, l'inférence a tendance à ralentir. Comme l'expliquent les chercheurs d'AI21 Labs, le mécanisme d'attention d'un transformateur s'adapte à la longueur de la séquence, ce qui réduit le débit, chaque token s'appuyant sur l'ensemble de la séquence précédente. Cela rend les applications à long contexte inefficaces.

Un autre défi concerne l'empreinte mémoire importante requise pour l'échelonnement des transformateurs. Leurs besoins en mémoire augmentent avec la longueur du contexte, rendant le traitement de longs contextes ou de multiples tâches parallèles difficile sans ressources matérielles considérables. L'approche SSM vise à répondre à ces préoccupations concernant le contexte et la mémoire.

L'architecture Mamba SSM, développée à l'origine par des chercheurs des universités Carnegie Mellon et Princeton, est conçue pour nécessiter moins de mémoire et utiliser un mécanisme d'attention différent pour gérer de grandes fenêtres de contexte. Cependant, elle a du mal à atteindre la même qualité de sortie que les modèles de transformateurs. L'approche hybride de Jamba combine l'optimisation des ressources et du contexte du SSM avec les capacités de sortie des transformateurs.

AI21 Labs affirme que le modèle Jamba dispose d'une fenêtre de contexte de 256K et offre un débit trois fois supérieur sur de longs contextes par rapport au Mixtral 8x7B. Il convient de noter que Jamba est positionné comme le seul modèle de sa catégorie capable de gérer jusqu'à 140K contextes sur un seul GPU.

Tout comme Mixtral, Jamba intègre un modèle Mixture of Experts (MoE). Toutefois, Jamba utilise MoE dans son cadre hybride SSM-transformateur, permettant des niveaux d'optimisation plus élevés. Plus précisément, les couches MoE de Jamba activent seulement 12 milliards de ses 52 milliards de paramètres disponibles lors de l'inférence, le rendant plus efficace qu'un modèle de transformateur de taille équivalente, selon AI21 Labs.

Actuellement, Jamba est encore en phase de développement et ne fait pas encore partie des offres destinées aux entreprises d'AI21 Labs, bien que la société prévoit de lancer une version instructive sur la plateforme AI21 en beta prochainement.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles