L'émergence de ChatGPT fin 2022 a suscité une course compétitive parmi les entreprises d'IA et les géants de la technologie, toutes visant à dominer le marché en pleine expansion des modèles de langage de grande taille (LLMs). En réponse à cette forte concurrence, de nombreuses entreprises ont choisi de proposer leurs modèles de langage sous forme de services propriétaires, offrant un accès API tout en dissimulant les poids de modèle sous-jacents et les détails concernant leurs ensembles de données et méthodologies de formation.
Contrairement à la tendance des modèles propriétaires, 2023 a vu une croissance significative de l'écosystème des LLMs open-source, illustrée par le lancement de modèles téléchargeables et personnalisables pour des applications spécifiques. Ce développement a consolidé l'open-source en tant qu'acteur majeur dans le paysage des LLMs, rivalisant efficacement avec les solutions propriétaires.
Plus grand signifie-t-il meilleur ?
Avant 2023, la croyance commune était qu'augmenter la taille des LLMs était essentiel pour améliorer les performances. Des modèles open-source comme BLOOM et OPT, comparables au GPT-3 d'OpenAI avec ses 175 milliards de paramètres, illustraient cette approche. Cependant, ces grands modèles nécessitaient des ressources computationnelles substantielles et une expertise pour fonctionner efficacement.
Ce paradigme a radicalement changé en février 2023 lorsque Meta a lancé Llama, une série de modèles allant de 7 à 65 milliards de paramètres. Llama a prouvé que des modèles plus petits pouvaient égaler les performances de leurs homologues plus grands, soutenant l'idée que la taille du modèle n'est pas le seul déterminant de son efficacité.
La clé du succès de Llama résidait dans son entraînement sur un ensemble de données beaucoup plus vaste. Alors que GPT-3 utilisait environ 300 milliards de tokens, les modèles Llama ont ingéré jusqu'à 1,4 trillion de tokens, démontrant que former des modèles plus petits sur un ensemble de données plus étendu pouvait être une approche puissante.
Les avantages des modèles open-source
La popularité de Llama reposait sur deux principaux avantages : sa capacité à fonctionner sur un seul GPU et sa publication en open-source. Cette accessibilité a permis à la communauté de recherche de s'appuyer rapidement sur son architecture et ses découvertes, entraînant l'émergence de plusieurs LLMs open-source notables, notamment Cerebras-GPT de Cerebras, Pythia d'EleutherAI, MPT de MosaicML, X-GEN de Salesforce, et Falcon de TIIUAE.
En juillet 2023, Meta a lancé Llama 2, qui est rapidement devenu la base de nombreux modèles dérivés. Mistral.AI a également fait sensation avec l'introduction de deux modèles—Mistral et Mixtral—gagnant en reconnaissance pour leurs performances et leur rapport qualité-prix.
« Depuis la sortie du modèle original Llama, le paysage des LLMs open-source s'est accéléré, avec Mixtral désormais reconnu comme le troisième modèle le plus utile selon les évaluations humaines, après GPT-4 et Claude », a déclaré Jeff Boudier, responsable produit et croissance chez Hugging Face.
D'autres modèles comme Alpaca, Vicuna, Dolly et Koala ont été développés à partir de ces modèles fondamentaux, adaptés pour des applications spécifiques. Les données de Hugging Face montrent que les développeurs ont créé des milliers de forks et de versions spécialisées, avec plus de 14 500 résultats pour "Llama", 3 500 pour "Mistral" et 2 400 pour "Falcon". Malgré sa sortie en décembre 2023, Mixtral a déjà servi de base à 150 projets.
La nature open-source de ces modèles favorise l'innovation en permettant aux développeurs de créer de nouveaux modèles et de combiner des modèles existants sous diverses configurations, augmentant ainsi la praticité des LLMs.
L'avenir des modèles open-source
Alors que les modèles propriétaires continuent d'évoluer, la communauté open-source demeure un concurrent redoutable. Les géants de la technologie intègrent de plus en plus de modèles open-source dans leurs produits, reconnaissant leur valeur. Microsoft, un soutien majeur d'OpenAI, a publié deux modèles open-source, Orca et Phi-2, et a amélioré l'intégration des modèles open-source dans sa plateforme Azure AI Studio. De même, Amazon a lancé Bedrock, un service cloud conçu pour héberger à la fois des modèles propriétaires et open-source.
« En 2023, les entreprises ont été largement surprises par les capacités des LLMs, notamment après le succès de ChatGPT », a noté Boudier. « Les PDG ont chargé leurs équipes de définir des cas d'utilisation de l'IA générative, entraînant une expérimentation rapide et des applications de preuve de concept utilisant les APIs de modèles fermés. »
Cependant, s'appuyer sur des APIs externes pour des technologies critiques présente des risques, notamment la possibilité d'exposer des codes sources sensibles et des données clients—une stratégie non durable à long terme pour les entreprises axées sur la confidentialité et la sécurité des données.
L'écosystème open-source émergent offre une voie prometteuse pour les entreprises cherchant à implémenter l'IA générative tout en répondant aux besoins de confidentialité et de conformité.
« À mesure que l'IA transforme le développement technologique, tout comme par le passé avec d'autres innovations, les organisations devront créer et gérer des solutions d'IA en interne, en veillant à la confidentialité, à la sécurité et à la conformité réglementaire des informations clients », a conclu Boudier. « En se basant sur les tendances historiques, cela signifiera probablement embrasser l'open-source. »