Alibaba dévoile Qwen2-VL : Le nouveau modèle d'IA capable d'analyser des vidéos de plus de 20 minutes.

Home Actualités IA Alibaba dévoile Qwen2-VL : Le nouveau modèle d'IA capable d'analyser des vidéos de plus de 20 minutes.

Alibaba Cloud, la division de services cloud du géant chinois du e-commerce, a lancé Qwen2-VL, son dernier modèle de vision-langage conçu pour améliorer la compréhension visuelle, l’analyse vidéo et le traitement multilingue de texte-image.

Qwen2-VL surpasse des modèles de pointe tels que Llama 3.1 de Meta, GPT-4o d'OpenAI, Claude 3 Haiku d'Anthropic et Gemini-1.5 Flash de Google, selon des tests de référence tiers. Vous pouvez l'expérimenter sur Hugging Face.

Langues supportées : anglais, chinois, la plupart des langues européennes, japonais, coréen, arabe et vietnamien.

Analyse Visuelle et Vidéo Avancée

Alibaba vise à redéfinir l'interaction IA avec les données visuelles via Qwen-2VL. Ce modèle peut analyser l'écriture manuscrite en plusieurs langues, identifier et décrire des objets dans des images, et traiter des vidéos en temps quasi réel, le rendant adapté pour le support technique et les tâches opérationnelles en direct.

Dans un article de blog sur GitHub, l'équipe de recherche Qwen a souligné : « Au-delà des images statiques, Qwen2-VL étend ses capacités à l'analyse de contenu vidéo. Il peut résumer des vidéos, répondre à des questions connexes et maintenir des conversations en temps réel, ce qui lui permet d'agir comme un assistant personnel, fournissant des informations directement issues du contenu vidéo. »

À noter, Qwen-2VL peut analyser des vidéos de plus de 20 minutes et répondre à des questions sur leur contenu.

Résumé Vidéo Exemple :

Dans une démonstration, Qwen2-VL a efficacement résumé une vidéo où des astronautes discutaient de leur mission à l'intérieur d'une station spatiale, offrant aux spectateurs un aperçu captivant de l’exploration spatiale.

Variantes du Modèle et Options Open Source

Qwen2-VL se décline en trois variantes : Qwen2-VL-72B (72 milliards de paramètres), Qwen2-VL-7B et Qwen2-VL-2B. Les versions 7B et 2B sont open source sous licence Apache 2.0, offrant des options intéressantes pour les entreprises. Ces variantes sont conçues pour des performances compétitives à une échelle accessible et sont disponibles sur des plateformes telles que Hugging Face et ModelScope.

Cependant, le plus grand modèle, le 72B, sera disponible ultérieurement sous une licence distincte et une API d’Alibaba.

Fonctionnalités et Intégration

La série Qwen2-VL s’appuie sur la famille de modèles Qwen, avec des avancées telles que :

- Intégration dans des dispositifs comme les téléphones mobiles et les robots pour des opérations automatisées basées sur des entrées visuelles et textuelles.

- Des capacités d'appel de fonction permettant d'interagir avec des logiciels tiers et des applications, comprenant des informations critiques comme les statuts de vol et le suivi de colis.

Ces fonctionnalités positionnent Qwen2-VL comme un outil puissant pour des tâches nécessitant un raisonnement complexe et une prise de décision.

Innovations Architecturales

Qwen2-VL intègre plusieurs avancées architecturales pour améliorer le traitement des données visuelles. Le support de Résolution Dynamique Naïve permet de gérer des images de différentes résolutions, garantissant ainsi l'exactitude de l'interprétation visuelle. Le système d’Incrustation de Position Rotative Multimodale (M-ROPE) permet au modèle d’intégrer efficacement les informations de position à travers le texte, les images et les vidéos.

Développements Futurs de l'Équipe Qwen

L’équipe Qwen est dédiée à l’avancement des modèles vision-langage en intégrant des modalités supplémentaires et en améliorant les applications des modèles. Les modèles Qwen2-VL sont désormais disponibles pour les développeurs et chercheurs souhaitant explorer le potentiel de ces outils de pointe.

Meta déclenche une révolution de l'IA open-source alors que les téléchargements de Llama augmentent de 10 fois d'une année sur l'autre.

Le Coéquipier Infatigable : Comment l'IA Agentique Révolutionne les Équipes de Développement Logiciel

Most people like

AIFaceSwap.ai

22.1K

Débloquez le potentiel des outils d'échange de visages propulsés par l'IA pour améliorer vos photos et vidéos. Ces technologies innovantes vous permettent d'échanger des visages dans vos médias en toute simplicité, créant ainsi un contenu captivant et personnalisé. Découvrez comment ces outils avancés peuvent transformer vos expériences numériques !

Échange de visages AI Face Swap Generator

Clearscope

108.2K

Améliorez votre présence numérique grâce à notre plateforme d'optimisation de contenu SEO alimentée par l'IA, conçue pour accroître la visibilité et l'engagement de votre site web. Maximisez le potentiel de votre contenu avec des analyses intelligentes et des recommandations personnalisées, vous garantissant de rester en tête dans le paysage en ligne concurrentiel. Profitez de technologies de pointe pour des stratégies SEO efficaces et regardez votre trafic s'envoler !

SEO AI SEO Assistant

Sintra AI

226.5K

Découvrez comment l'IA peut transformer votre flux de travail en automatisant des tâches et en améliorant la productivité. Libérez le potentiel de l'intelligence artificielle pour simplifier vos processus de travail et augmenter l'efficacité.

Invitations IA AI Advertising Assistant

Runway

7.6M

Runway conçoit des systèmes d'IA innovants spécifiquement adaptés aux outils créatifs dans les domaines de l'art et du divertissement. En exploitant une technologie avancée, Runway permet aux artistes et aux créateurs d'améliorer leur travail et de libérer de nouvelles possibilités dans leurs démarches créatives.

Recherche en IA AI Photo & Image Generator

Find AI tools in YBX