La technique innovante de Google offre aux LLM une compréhension contextuelle illimitée.

Nouvelle recherche : Un contexte infini pour les modèles linguistiques

Une étude récente de Google révèle une avancée révolutionnaire dans les grands modèles linguistiques (LLMs) : l'introduction de l'Infini-attention. Cette technique innovante permet aux LLMs de traiter des textes d'une longueur infinie tout en maintenant des exigences constantes en mémoire et en calcul.

Comprendre la fenêtre contextuelle

La "fenêtre contextuelle" désigne le nombre de tokens qu'un modèle peut traiter simultanément. Par exemple, si une conversation avec ChatGPT dépasse cette fenêtre, ses performances chutent, car les tokens antérieurs peuvent être supprimés. Les organisations adaptent les LLMs à des applications spécifiques—en intégrant des documents et des connaissances sur mesure dans leurs requêtes—ce qui rend l'extension de la longueur contextuelle cruciale pour obtenir un avantage concurrentiel.

Infini-attention : un changement de game pour les LLMs

D'après les chercheurs de Google, les modèles utilisant l'Infini-attention peuvent gérer efficacement plus d'un million de tokens sans augmenter l'utilisation de mémoire. Cette tendance pourrait théoriquement s'étendre encore davantage. Les Transformers, l'architecture des LLMs, fonctionnent traditionnellement avec une "complexité quadratique", ce qui signifie que doubler la taille d'entrée de 1 000 à 2 000 tokens quadruple à la fois la mémoire et le temps de calcul. Cette inefficacité provient du mécanisme d'auto-attention, où chaque token interagit avec tous les autres tokens.

Pour atténuer ces contraintes, des recherches antérieures ont produit diverses méthodes pour étendre les longueurs de contexte des LLMs. L'Infini-attention combine des mécanismes d'attention traditionnels avec un module de "mémoire compressive" qui gère de manière efficace les dépendances contextuelles à la fois à court et à long terme.

Comment fonctionne l'Infini-attention

L'Infini-attention conserve le mécanisme d'attention original tout en intégrant une mémoire compressive pour traiter des entrées étendues. Lorsque l'entrée dépasse sa longueur contextuelle, le modèle transmet les états d'attention plus anciens à la mémoire compressive, maintenant des paramètres de mémoire constants pour une efficacité améliorée. La sortie finale est obtenue en fusionnant la mémoire compressive avec l'attention locale. Les chercheurs affirment : « Cette modification critique de la couche d'attention Transformer permet aux LLMs existants d'étendre leur contexte vers l'infini grâce à un pré-entraînement et un affinage continus. »

Performances et applications

L'efficacité de l'Infini-attention a été évaluée à l'aide de critères pour de longues séquences d'entrée. En modélisation linguistique à long contexte, l'Infini-attention a démontré une performance supérieure, affichant des scores de perplexité plus bas—indiquant une cohérence accrue—tout en demandant significativement moins de mémoire.

Lors de tests impliquant la "récupération de passkey", l'Infini-attention a réussi à extraire un nombre aléatoire d'un texte de jusqu'à un million de tokens, surpassant d'autres méthodes dans les tâches de résumé sur des textes allant jusqu'à 500 000 tokens. Bien que Google n'ait pas publié de détails spécifiques sur les modèles ou le code pour une vérification indépendante, les résultats sont cohérents avec les observations de Gemini, qui prend également en charge des millions de tokens en contexte.

L’avenir des LLMs à long contexte

Les LLMs à long contexte représentent un domaine de recherche vital parmi les principaux laboratoires d'IA. Par exemple, Claude 3 d'Anthropic gère jusqu'à 200 000 tokens, tandis que le GPT-4 d'OpenAI prend en charge une fenêtre contextuelle de 128 000 tokens.

Un avantage significatif des LLMs à contexte infini est leur potentiel à faciliter la personnalisation des applications. Au lieu de dépendre de techniques complexes comme l'affinage ou la génération augmentée par récupération (RAG), un modèle à contexte infini pourrait théoriquement traiter de nombreux documents, déterminant le contenu le plus pertinent pour chaque requête. De plus, les utilisateurs pourraient améliorer les performances de tâches spécifiques via une large entrée d'exemples sans nécessiter d'affinage.

Cependant, le contexte infini ne remplacera pas entièrement les méthodes existantes. Il abaissera plutôt les barrières d'entrée, permettant aux développeurs de prototyper rapidement des applications avec un effort technique minimal. À mesure que les organisations adoptent ces avancées, l'optimisation des pipelines LLM restera essentielle pour relever les défis de coût, de rapidité et de précision.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles