Les chercheurs de Meta AI ont présenté MobileLLM, une approche novatrice pour le développement de modèles linguistiques efficaces, spécialement conçus pour les smartphones et autres appareils avec des ressources limitées. Publié le 27 juin 2024, cette recherche remet en question la croyance selon laquelle les modèles d'IA performants doivent être volumineux.
L'équipe, incluant des experts de Meta Reality Labs, PyTorch et Meta AI Research (FAIR), s'est concentrée sur l'optimisation de modèles avec moins de 1 milliard de paramètres, un chiffre bien inférieur à celui de GPT-4, qui est estimé à plus d'un trillion de paramètres.
Yann LeCun, le directeur scientifique de l'IA chez Meta, a partagé des points clés de cette recherche sur X (anciennement Twitter) :
Innovations clés dans MobileLLM :
- Priorité à la profondeur du modèle plutôt qu'à sa largeur
- Mise en œuvre du partage d'embeddings et de l'attention par requêtes groupées
- Introduction d'une technique novatrice de partage de poids par blocs
Ces décisions stratégiques ont permis à MobileLLM de surpasser les modèles précédents de taille similaire de 2,7 % à 4,3 % sur des tâches de référence clés. Bien que ces améliorations puissent sembler modestes, elles représentent des avancées significatives dans le paysage concurrentiel du développement de modèles linguistiques.
Fait remarquable, la version de MobileLLM avec 350 millions de paramètres égalise la précision du modèle LLaMA-2 de 7 milliards de paramètres pour certaines tâches d'appel d'API. Cela indique que les modèles compacts peuvent offrir des performances similaires tout en nécessitant beaucoup moins de ressources computationnelles.
La publication "MobileLLM : Optimisation des modèles linguistiques de moins d'un milliard de paramètres pour des cas d'utilisation sur appareil" par Zechun Liu et al. souligne cette avancée.
Le développement de MobileLLM reflète un intérêt croissant pour la création de modèles d'IA plus efficaces. Alors que les avancées dans les très grands modèles linguistiques commencent à atteindre un plateau, les chercheurs se tournent de plus en plus vers des conceptions compactes et spécialisées. L'accent mis par MobileLLM sur l'efficacité et le déploiement sur appareil le positionne parmi ce que certains experts appellent les Petits Modèles Linguistiques (SLMs).
Bien que MobileLLM ne soit pas encore disponible publiquement, Meta a rendu le code de pré-entraînement open-source, permettant aux chercheurs de s'appuyer sur ce travail. Au fur et à mesure que cette technologie évolue, elle a le potentiel d'améliorer les fonctionnalités de l'IA sur les appareils personnels, bien que le calendrier et les capacités spécifiques restent incertains.
Dans l'ensemble, MobileLLM marque une avancée significative pour rendre l'IA sophistiquée plus accessible et durable, défiant l'idée que les modèles linguistiques efficaces doivent être massifs. Cette innovation pourrait ouvrir la voie à de nouvelles applications passionnantes de l'IA sur les appareils personnels.