Alibaba Dévoile le Modèle Open Source Qwen 1.5-110B, Équivalent en Performance au Llama 3-70B de Meta

Récemment, Alibaba a annoncé la publication en open source de son premier modèle à 110 milliards de paramètres, le Qwen1.5-110B, issu de la série Qwen1.5. Cette initiative met en avant non seulement les capacités novatrices d'Alibaba en intelligence artificielle, mais aussi les progrès significatifs réalisés par les entreprises chinoises dans le développement de modèles de langage à grande échelle.

Le modèle Qwen1.5-110B repose sur une architecture de décodeur Transformer et intègre la technologie Grouped Query Attention (GQA), ce qui améliore l'efficacité des inférences. Il prend en charge une longueur de contexte maximale de 32 000 tokens et est capable de traiter plusieurs langues, notamment l'anglais, le chinois, le français, l'espagnol, l'allemand, le russe, le japonais, le coréen et le vietnamien.

Les évaluations de performance montrent que le Qwen1.5-110B rivalise vivement avec le Llama3-70B de Meta, atteignant cet objectif sans modifications significatives de sa méthodologie de pré-entraînement. Alibaba attribue l'amélioration de la performance du modèle principalement à son échelle accrue. Cela reflète l'expertise d'Alibaba en matière de design et d'optimisation de modèles, tout en insufflant une nouvelle vitalité au développement des modèles de langage à grande échelle en Chine.

De plus, le Qwen1.5-110B excelle dans les évaluations de chat, montrant des avantages significatifs par rapport au modèle précédent de 72 milliards de paramètres dans les évaluations MT-Bench et AlpacaEval 2.0. Cela confirme que les modèles de langage fondamentaux plus grands peuvent considérablement améliorer la performance des modèles de chat.

Alibaba souligne que le Qwen1.5-110B est le plus grand modèle de la série et le premier à dépasser les 100 milliards de paramètres. Cette réalisation consolide non seulement la position de leader d'Alibaba dans le domaine des modèles de langage à grande échelle, mais augmente également la voix des entreprises chinoises sur la scène mondiale de l'IA.

Alors que les technologies de l'IA continuent d'évoluer, les modèles de langage à grande échelle sont devenus un point focal pour de nombreuses entreprises technologiques. La publication en open source du Qwen1.5-110B offre aux développeurs un outil exceptionnel, favorisant la prolifération et l'application de la technologie IA.

À l'avenir, nous prévoyons d'autres avancées de la part des entreprises chinoises dans le domaine des modèles de langage à grande échelle, enrichissant ainsi le développement de la technologie IA avec des idées innovantes.

Most people like

Find AI tools in YBX