Stability AI lance un modèle linguistique compact et efficace de 1,6 milliard de paramètres : Une nouvelle ère d'innovation.

L'Impact de la Taille sur les Modèles de Langage de Grande Taille (LLMs)

La taille est un facteur crucial pour les modèles de langage de grande taille (LLMs), car elle détermine leur efficacité opérationnelle. Stability AI, célèbre pour sa technologie d'IA générative text-to-image stable diffusion, vient de lancer l'un de ses plus petits modèles : le Stable LM 2 1.6B. Ce modèle de génération de contenu textuel a été présenté pour la première fois en avril 2023 avec des versions de 3 milliards et 7 milliards de paramètres. Le modèle 1.6B est le deuxième lancement de l'entreprise en 2024, après le lancement antérieur du Stable Code 3B de Stability AI.

Présentation du Modèle Compact Stable LM 2

Le nouveau Stable LM 2 1.6B est conçu pour réduire les barrières d’entrée pour les développeurs et encourager leur participation dans l’écosystème de l’IA générative. Ce modèle compact mais puissant permet la génération multilingue en sept langues : anglais, espagnol, allemand, italien, français, portugais et néerlandais. Il tire parti des avancées récentes en modélisation algorithmique du langage pour atteindre un équilibre optimal entre rapidité et performance.

Carlos Riquelme, responsable de l'équipe linguistique chez Stability AI, a déclaré : « En général, les modèles plus grands formés sur des données similaires obtiennent de meilleurs résultats que les plus petits. Cependant, avec l'implémentation d'algorithmes améliorés et une formation sur des données de qualité, les modèles plus petits peuvent souvent surpasser leurs homologues plus grands et plus anciens. »

Pourquoi les Modèles Plus Petits Peuvent Surpasser les Plus Grands

Selon Stability AI, le Stable LM 2 1.6B surpasse de nombreux petits modèles de langage comportant moins de 2 milliards de paramètres dans divers benchmarks, y compris Phi-2 de Microsoft (2.7B), TinyLlama 1.1B et Falcon 1B. Fait remarquable, il surpasse également des versions plus grandes, comme le modèle Stable LM 3B de Stability AI.

« Le Stable LM 2 1.6B obtient de meilleurs résultats que certains modèles plus grands entraînés il y a à peine quelques mois, » a noté Riquelme. « Tout comme dans la technologie informatique, nous assistons à des modèles devenant plus petits, plus fins et plus performants au fil du temps. »

Reconnaissance des Limitations

Bien que le Stable LM 2 1.6B dispose de capacités impressionnantes, sa taille s'accompagne de certaines limitations. Stability AI met en garde : « En raison de la nature inhérente des petits modèles de langage, le Stable LM 2 1.6B peut présenter des problèmes courants tels que des taux de hallucination plus élevés ou un langage potentiellement toxique. »

Transparence et Amélioration de la Formation des Données

Depuis plusieurs mois, Stability AI se concentre sur des options de LLM plus petites mais plus puissantes. En décembre 2023, il a lancé le modèle StableLM Zephyr 3B, améliorant ainsi les performances au sein d'un cadre plus compact que sa version initiale.

Riquelme a expliqué que les nouveaux modèles Stable LM 2 utilisent davantage de données, intégrant des documents multilingues dans six langues en plus de l’anglais. Il a souligné l'importance de l'ordre de présentation des données lors de la formation, suggérant que la diversité des types de données à différents stades de formation pourrait améliorer les résultats.

Pour faciliter davantage le développement, Stability AI propose ces modèles en formats pré-entraînés et ajustés, ainsi que ce que les chercheurs décrivent comme « le dernier point de contrôle du modèle avant la période de refroidissement du pré-entraînement. »

« Notre objectif est de fournir des outils aux développeurs pour innover et bâtir sur nos modèles actuels, » a communiqué Riquelme. « Nous offrons un modèle à moitié préparé pour l'expérimentation. »

Il a précisé que, au fur et à mesure que le modèle est mis à jour de manière séquentielle, ses performances s'améliorent. Le modèle initial manque de connaissances, tandis que les versions ultérieures accumulent des informations à partir des données. Cependant, Riquelme a également noté que les modèles peuvent devenir moins flexibles à la fin de la formation.

« Nous avons décidé de fournir le modèle dans sa forme pré-finale d'entraînement pour faciliter son spécialisation pour différentes tâches ou ensembles de données. Bien que nous ne puissions garantir le succès, nous croyons en la créativité des utilisateurs pour exploiter de nouveaux outils de manière innovante. »

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles