Microsoft et Beihang dévoilent MoRA : une technique avancée pour un réglage efficace des LLM.

Home Actualités IA Microsoft et Beihang dévoilent MoRA : une technique avancée pour un réglage efficace des LLM.

Des chercheurs de Microsoft et de l'Université Beihang ont mis au point une technique économique pour ajuster les modèles de langage de grande taille (LLMs), réduisant considérablement les coûts habituels. Appelée MoRA, cette méthode novatrice d'ajustement efficace des paramètres (PEFT) surmonte les limitations des techniques existantes telles que l'adaptation à faible rang (LoRA). MoRA est particulièrement avantageuse pour ajuster des modèles sur des tâches nécessitant l'assimilation de nouvelles connaissances. À mesure que les stratégies PEFT gagnent en popularité dans le milieu professionnel, MoRA s'affirme comme un outil précieux pour les développeurs d'applications de LLM.

Comprendre PEFT et LoRA

Le réglage traditionnel nécessite d'ajuster tous les paramètres d'un LLM, ce qui peut être coûteux et long, les modèles contenant souvent des milliards de paramètres. Les techniques PEFT optimisent ce processus en identifiant le sous-ensemble minimal de paramètres nécessaires pour des ajustements spécifiques aux tâches. LoRA est devenu un méthode PEFT populaire grâce à sa capacité à mettre à jour les paramètres en utilisant des matrices à faible rang, ce qui réduit les besoins en mémoire et facilite le stockage et le déploiement de modèles ajustés. Cependant, LoRA montre des limites avec des tâches plus complexes, comme le raisonnement mathématique et le pré-entraînement continu, car son approche à faible rang restreint la capacité du modèle à acquérir et à retenir de nouvelles informations.

Selon les chercheurs, « cette limitation restreint la capacité de stocker de nouvelles informations par le réglage. »

Présentation de MoRA

MoRA améliore LoRA en s'appuyant sur une seule matrice carrée au lieu de matrices à faible rang, ce qui permet un processus d'ajustement plus efficace. Le concept clé de MoRA est d'utiliser des paramètres entraînables pour atteindre le rang le plus élevé compatible avec les dimensions originales du modèle. Contrairement à LoRA, les dimensions d'entrée et de sortie de MoRA ne s'alignent pas avec celles du modèle original, empêchant une multiplication matricielle directe. Pour résoudre cela, les chercheurs ont conçu une fonction de compression/décompression qui facilite la transformation des entrées entre les deux espaces, permettant ainsi à MoRA d'être intégré sans difficulté dans des LLM de différentes tailles. La matrice de poids carrée renforce la capacité de MoRA à apprendre et à mémoriser de nouvelles connaissances par rapport à un modèle LoRA de taille équivalente.

Performance de MoRA

Dans des études comparatives, MoRA a systématiquement surpassé LoRA sur des tâches de mémorisation, approchant la performance de modèles entièrement ajustés tout en utilisant moins de paramètres et d'étapes d'entraînement. Les chercheurs ont observé que la courbe de perte de MoRA s'aligne étroitement avec le réglage complet pour les tâches de mémorisation de connaissances, indiquant son efficacité. « Notre méthode montre des améliorations significatives par rapport à LoRA avec le même nombre de paramètres entraînables, bénéficiant de mises à jour à rang élevé », ont-ils déclaré.

Dans les tâches impliquant le réglage par instructions et le raisonnement mathématique, la performance de MoRA était presque équivalente à celle de LoRA. Cependant, dans des scénarios de pré-entraînement continu dans les contextes biomédical et financier, MoRA a excellé grâce à sa capacité de mise à jour à rang élevé, facilitant la mémorisation de nouvelles informations. Les chercheurs ont également noté que l'augmentation du rang de l'adaptateur MoRA pourrait réduire l'écart de performance entre PEFT et le réglage complet dans les tâches de raisonnement mathématique, mais entraînerait des exigences d'entraînement et de stockage plus élevées.

Le rôle de PEFT dans les entreprises

Le réglage est crucial pour les applications professionnelles des LLM. Il améliore les capacités et l'exactitude des LLM, permettant aux organisations d'utiliser des modèles plus petits pour des tâches qui nécessiteraient autrement des modèles avancés plus coûteux. Actuellement, LoRA et ses variantes sont considérés comme des références pour l'ajustement efficace des paramètres, soutenues par un écosystème robuste d'outils et de plateformes pour créer des adaptateurs LoRA. Par exemple, S-LoRA permet aux développeurs d'exécuter plusieurs adaptateurs LoRA sur un seul GPU, facilitant des applications nécessitant de nombreux LLM ajustés adaptés à chaque contenu utilisateur. Les chercheurs ont rendu MoRA disponible en tant qu'implémentation open-source compatible avec LoRA, en en faisant une ressource précieuse pour les entreprises cherchant à enrichir les modèles de base avec de nouvelles connaissances.

Elon Musk vs. Yann LeCun : Un Conflit Sur les Réseaux Sociaux Révélant des Approches Opposées de la Recherche en IA et de la Perception Publique

OpenAI Lance la Formation pour le Modèle de Prochaine Génération — GPT-5 Attendu dans Plus de 90 Jours

Most people like

Jina AI

524.3K

Emanciper chacun grâce à la technologie IA.

IA multimodale AI Productivity Tools

Unscreen

795.2K

Unscreen est un outil convivial conçu pour éliminer facilement les arrière-plans vidéo sans avoir recours à la clé chromatique. Découvrez un montage vidéo fluide et améliorez votre contenu grâce à cette solution innovante.

suppression de fond vidéo AI Short Clips Generator

Articula

Translatez des appels et des mémos vocaux avec votre propre voix : Libérez une communication sans faille Découvrez la puissance de la traduction d’appels et de mémos vocaux sans effort avec votre propre voix. Cet outil innovant vous permet de conserver votre ton et votre style uniques tout en surmontant les barrières linguistiques, rendant la communication plus fluide et authentique. Découvrez la simplicité d'améliorer vos interactions dès aujourd'hui !

traduction d'appel Other

Skyvern AI

16.9K

Présentation d'un agent IA open source conçu pour automatiser les workflows basés sur le navigateur Débloquez le potentiel d'une productivité optimisée avec notre agent IA open source, spécialement conçu pour automatiser les tâches dans le navigateur. Cet outil innovant permet aux utilisateurs d'améliorer leur efficacité en gérant sans effort les processus répétitifs, rendant l'automatisation des workflows accessible à tous. Élevez vos tâches en ligne dès aujourd'hui !

Agent IA AI Content Generator

Find AI tools in YBX