Dans la compétition actuelle en matière d'IA, marquée par la course des géants technologiques pour créer des modèles de langage de plus en plus grands (LLM), une tendance significative émerge : le petit est le nouveau grand. Alors que les avancées des LLM semblent atteindre un plateau, les chercheurs et développeurs tournent leur attention vers les modèles de langage de petite taille (SLM). Ces modèles compacts, efficaces et adaptables redéfinissent le paysage de l'IA, remettant en question l'idée selon laquelle plus c'est grand, mieux c'est.
Les LLMs atteignent-ils un plateau ?
Des comparaisons de performance récentes effectuées par Vellum et HuggingFace révèlent que l'écart entre les LLM se réduit. Cela se voit notamment dans des tâches comme les questions à choix multiples, le raisonnement et les problèmes mathématiques, où les meilleurs modèles affichent des différences de performance minimales. Par exemple, dans les scénarios à choix multiples, Claude 3 Opus, GPT-4 et Gemini Ultra obtiennent tous des scores supérieurs à 83 %. Dans les tâches de raisonnement, les résultats sont similaires, avec Claude 3 Opus, GPT-4 et Gemini 1.5 Pro dépassant les 92 % de précision.
Étonnamment, des modèles plus petits tels que Mixtral 8x7B et Llama 2 – 70B montrent des résultats prometteurs dans des domaines spécifiques, surclassant certains de leurs grands homologues. Cela laisse à penser que des facteurs tels que l'architecture, les données d'entraînement et les techniques de fine-tuning jouent un rôle crucial dans la performance, remettant en question la croyance selon laquelle la taille est le principal déterminant.
Gary Marcus, ancien responsable d'Uber AI et auteur de « Rebooting AI », note que des recherches récentes indiquent une convergence dans la performance des modèles. « Bien que certains nouveaux modèles puissent légèrement surpasser GPT-4, il n'y a pas eu d'avancées significatives depuis plus d'un an », déclare Marcus.
Alors que l'écart de performance continue de se réduire, cela soulève des questions sur la possibilité que les LLM atteignent effectivement un plateau. Si cette tendance se poursuit, le développement futur de l'IA pourrait se tourner vers des architectures plus efficaces et spécialisées, plutôt que de simplement augmenter la taille des modèles.
Inconvénients de l'approche LLM
Malgré leur puissance, les LLM présentent des inconvénients majeurs. L'entraînement de ces modèles nécessite d'énormes ensembles de données et des ressources computationnelles immenses, rendant le processus très gourmand en ressources. Par exemple, le PDG d'OpenAI, Sam Altman, a révélé que l'entraînement de GPT-4 a coûté au moins 100 millions de dollars. La complexité des LLM engendre une courbe d'apprentissage abrupte pour les développeurs, créant des barrières à l'accessibilité. Les entreprises peuvent prendre 90 jours ou plus pour déployer un seul modèle d'apprentissage automatique, ralentissant l'innovation.
Un autre problème réside dans la tendance des LLM à générer des "hallucinations", produisant des résultats qui semblent plausibles mais sont faux. Cette limitation surgit parce que les LLM prédisent des mots en fonction de modèles d'entraînement, sans compréhension véritable. Ainsi, des sorties incorrectes ou nonsensiques peuvent émerger avec confiance, posant des risques dans des applications critiques comme la santé et la conduite autonome.
La nature à grande échelle et opaque des LLM complique l'interprétation et le débogage, deux aspects cruciaux pour assurer la confiance dans les résultats. De plus, des données d'entraînement biaisées peuvent engendrer des résultats nuisibles, tandis que les tentatives de rendre les LLM plus fiables peuvent réduire leur efficacité.
L'arrivée des Modèles de Langage de Petite Taille (SLM)
Les SLM offrent une solution à de nombreux défis posés par les LLM. Avec moins de paramètres et des conceptions plus simples, les SLM nécessitent moins de données et un temps d'entraînement souvent réduit à quelques minutes ou quelques heures, contre plusieurs jours pour les LLM. Cette efficacité permet une mise en œuvre plus facile sur des appareils plus petits.
Un des principaux avantages des SLM est leur adaptabilité à des applications spécifiques. Ils peuvent être affinés pour des domaines tels que l'analyse des sentiments ou les réponses à des questions spécifiques, offrant ainsi des performances supérieures par rapport aux modèles généralistes. Cette spécialisation améliore l'efficacité des tâches ciblées.
De plus, les SLM garantissent une meilleure confidentialité et sécurité. Leur architecture simplifiée facilite leur audit et réduit les risques de vulnérabilités, ce qui est essentiel dans des secteurs comme la santé et la finance. Moins gourmands en ressources, les SLM peuvent fonctionner localement sur des appareils, améliorant ainsi la sécurité des données et minimisant les risques d'exposition durant le transfert.
Les SLM sont également moins sujets aux hallucinations, car ils sont généralement entraînés sur des ensembles de données plus restreints et spécifiques à leurs applications. Cette focalisation réduit la probabilité de générer des résultats hors sujet, entraînant des performances plus fiables.
Clem Delangue, PDG de HuggingFace, avance que jusqu'à 99 % des cas d'utilisation pourraient être efficacement traités avec des SLM, prédisant qu'une forte adoption de ces modèles se produira en 2024. HuggingFace a établi un partenariat avec Google, intégrant sa plateforme au Vertex AI de Google, permettant le déploiement rapide de milliers de modèles.
L'initiative Gemma de Google
Après avoir initialement perdu du terrain face à OpenAI dans la course aux LLM, Google s'engage désormais vigoureusement dans le développement des SLM. En février, Google a lancé Gemma, une série de modèles de langage de petite taille conçus pour l'efficacité et la convivialité. Ces modèles peuvent fonctionner sur des appareils standards tels que les smartphones et les ordinateurs portables sans nécessiter de ressources extensives.
Depuis son lancement, les modèles entraînés Gemma ont été téléchargés plus de 400 000 fois sur HuggingFace, suscitant des projets innovants. Un développement notable est Cerule, un puissant modèle d'image et de langage combinant Gemma 2B avec le SigLIP de Google, capable de bien fonctionner sans grandes quantités de données. Un autre exemple est CodeGemma, une version spécialisée ciblant le codage et le raisonnement mathématique, fournissant des modèles adaptés à diverses activités liées au codage.
Le potentiel transformateur des SLM
Alors que la communauté de l'IA explore en profondeur les avantages des SLM, les atouts d'un cycle de développement plus rapide, d'une efficacité accrue et de solutions ciblées deviennent plus clairs. Les SLM pourraient démocratiser l'accès à l'IA et favoriser l'innovation dans divers secteurs en permettant des applications spécifiques et rentables.
Déployer des SLM en périphérie ouvre des perspectives pour des applications en temps réel, personnalisées et sécurisées dans des domaines tels que la finance, le divertissement, l'automobile, l'éducation, le commerce électronique et la santé. En traitant les données localement et en minimisant la dépendance à l'infrastructure cloud, les SLM renforcent la confidentialité des données et l'expérience utilisateur.
À mesure que les LLM font face à des défis liés à leur consommation computationnelle et à d'éventuels plateaux de performance, l'essor des SLM promet de faire progresser l'écosystème de l'IA à un rythme impressionnant.