阿里巴巴发布Qwen2-VL：新一代AI模型可分析超过20分钟的视频

Home AI News CN 阿里巴巴发布Qwen2-VL：新一代AI模型可分析超过20分钟的视频

阿里巴巴云，作为中国电商巨头的云服务部门，推出了最新的视觉语言模型Qwen2-VL，旨在提升视觉理解、视频分析和多语言文本图像处理能力。

根据第三方基准测试，Qwen2-VL的表现优于Meta的Llama 3.1、OpenAI的GPT-4o、Anthropic的Claude 3 Haiku和Google的Gemini-1.5 Flash。用户可以在Hugging Face上进行实验。

支持语言：英语、中文、绝大多数欧洲语言、日语、韩语、阿拉伯语和越南语。

高级视觉和视频分析

阿里巴巴致力于通过Qwen2-VL重新定义与视觉数据的人工智能互动。该模型可以识别多种语言的手写内容，识别并描述图像中的物体，以及近实时处理直播视频，适用于技术支持和现场操作任务。

Qwen研究团队在GitHub博客中指出：“除了静态图像，Qwen2-VL还扩展了对视频内容分析的能力。它可以总结视频内容、回答相关问题，并保持实时对话，这使其能够充当用户的个人助手，直接提取视频内容中的见解。”

值得注意的是，Qwen2-VL能够分析超过20分钟的视频并回答有关内容的问题。

示例视频总结：在一次演示中，Qwen2-VL有效总结了一段宇航员在空间站内讨论任务的视频，为观众呈现了引人入胜的太空探索场景。

模型变体与开源选项

Qwen2-VL有三个变体：Qwen2-VL-72B（720亿参数）、Qwen2-VL-7B和Qwen2-VL-2B。7B和2B版本在Apache 2.0许可证下开放源代码，非常适合企业使用。这些变体旨在提供竞争力的性能，且具有可访问性，现已在Hugging Face和ModelScope等平台上提供。

不过，最大的72B模型将稍后以独立许可证和API的形式发布。

功能与集成

Qwen2-VL系列基于Qwen模型家族，具备以下先进功能：

- 可集成到移动电话和机器人等设备中，基于视觉和文本输入自动执行操作。

- 可以调用功能，与第三方软件和应用程序互动，理解航班状态、包裹追踪等关键信息。

这些特性使Qwen2-VL成为处理复杂推理和决策任务的强大工具。

架构创新

Qwen2-VL通过多项架构改进增强视觉数据处理能力。支持自适应动态分辨率，确保在处理不同分辨率图像时保持准确性。多模态旋转位置嵌入（M-ROPE）系统则允许模型有效地整合文本、图像和视频的位置信息。

Qwen团队的未来发展

Qwen团队致力于通过整合额外的模态和增强模型的应用来推动视觉语言模型的发展。Qwen2-VL模型现已向开发者和研究人员开放，欢迎探索这些前沿工具的潜力。

元宇宙点燃开源人工智能革命，Llama下载量同比激增10倍

不知疲倦的伙伴：代理智能如何变革软件开发团队

Most people like

LTX Studio

726.9K

通过人工智能驱动的电影制作平台，用户可以完全掌控故事叙述的每一个环节。这种创新技术将改变传统电影制作方式，使创作者在视觉叙事上拥有更大的自由度和灵活性。

人工智能驱动文字转视频工具

Uniplan.ai

AI驱动的网站为用户提供定制化的商业计划，助力企业更高效地实现目标。通过智能分析与数据挖掘，我们能够为不同规模和领域的公司创造个性化解决方案，推动业务增长和市场竞争力。

其他 AI 内容生成器

Infinity AI

43.6K

以人为中心的生成式视频模型是一种新兴的技术，旨在根据用户的需求和偏好生成个性化的视频内容。这类模型利用深度学习和人工智能算法，将用户的输入转化为丰富的视觉故事。这不仅提升了视频创作的效率，还有助于增强观众的体验。通过优化视觉元素和叙事结构，这些模型能够制作出与用户期待相符的高质量视频，真正实现以人性化为核心的创作理念。

AI视频模型提示

Notta

4.6M

AI驱动的转录与翻译服务，为您提供高效、精准的语言解决方案。无论是音频转文字，还是多语言翻译，我们都能满足您的需求，助力沟通无障碍。让先进的人工智能技术提升您的工作效率，节省宝贵时间。

转录语音转写工具

Find AI tools in YBX