阿里巴巴发布Qwen2-VL：新一代AI模型可分析超过20分钟的视频

Home AI News CN 阿里巴巴发布Qwen2-VL：新一代AI模型可分析超过20分钟的视频

阿里巴巴云，作为中国电商巨头的云服务部门，推出了最新的视觉语言模型Qwen2-VL，旨在提升视觉理解、视频分析和多语言文本图像处理能力。

根据第三方基准测试，Qwen2-VL的表现优于Meta的Llama 3.1、OpenAI的GPT-4o、Anthropic的Claude 3 Haiku和Google的Gemini-1.5 Flash。用户可以在Hugging Face上进行实验。

支持语言：英语、中文、绝大多数欧洲语言、日语、韩语、阿拉伯语和越南语。

高级视觉和视频分析

阿里巴巴致力于通过Qwen2-VL重新定义与视觉数据的人工智能互动。该模型可以识别多种语言的手写内容，识别并描述图像中的物体，以及近实时处理直播视频，适用于技术支持和现场操作任务。

Qwen研究团队在GitHub博客中指出：“除了静态图像，Qwen2-VL还扩展了对视频内容分析的能力。它可以总结视频内容、回答相关问题，并保持实时对话，这使其能够充当用户的个人助手，直接提取视频内容中的见解。”

值得注意的是，Qwen2-VL能够分析超过20分钟的视频并回答有关内容的问题。

示例视频总结：在一次演示中，Qwen2-VL有效总结了一段宇航员在空间站内讨论任务的视频，为观众呈现了引人入胜的太空探索场景。

模型变体与开源选项

Qwen2-VL有三个变体：Qwen2-VL-72B（720亿参数）、Qwen2-VL-7B和Qwen2-VL-2B。7B和2B版本在Apache 2.0许可证下开放源代码，非常适合企业使用。这些变体旨在提供竞争力的性能，且具有可访问性，现已在Hugging Face和ModelScope等平台上提供。

不过，最大的72B模型将稍后以独立许可证和API的形式发布。

功能与集成

Qwen2-VL系列基于Qwen模型家族，具备以下先进功能：

- 可集成到移动电话和机器人等设备中，基于视觉和文本输入自动执行操作。

- 可以调用功能，与第三方软件和应用程序互动，理解航班状态、包裹追踪等关键信息。

这些特性使Qwen2-VL成为处理复杂推理和决策任务的强大工具。

架构创新

Qwen2-VL通过多项架构改进增强视觉数据处理能力。支持自适应动态分辨率，确保在处理不同分辨率图像时保持准确性。多模态旋转位置嵌入（M-ROPE）系统则允许模型有效地整合文本、图像和视频的位置信息。

Qwen团队的未来发展

Qwen团队致力于通过整合额外的模态和增强模型的应用来推动视觉语言模型的发展。Qwen2-VL模型现已向开发者和研究人员开放，欢迎探索这些前沿工具的潜力。

元宇宙点燃开源人工智能革命，Llama下载量同比激增10倍

不知疲倦的伙伴：代理智能如何变革软件开发团队

Most people like

Chai

563.4K

使用Chai AI，这款卓越的聊天机器人应用程序，您可以轻松创建、分享和探索多样化的聊天机器人。

聊天机器人应用 AI聊天机器人

EssayGenius

76K

EssayGenius是一个创新的AI平台，旨在帮助用户高效地撰写优质文章。借助先进的人工智能技术，用户可以轻松提升写作速度和质量，释放创作潜力。

其他写作助手

Dappier

19.5K

AI内容授权的在线市场正在迅速崛起，成为内容创作者与企业之间的重要桥梁。在这一市场中，用户可以轻松授权和交易人工智能生成的内容，极大地提高效率与创意。同时，企业能够找到并获取高质量的AI内容，促进品牌发展与市场竞争力。在这样一个数字化日益增强的时代，了解AI内容授权平台的运作和优势，对所有内容创作者和企业至关重要。

AI内容许可 AI聊天机器人

Mapify

1.5M

探索免费的在线人工智能驱动的思维导图工具，助您轻松组织和可视化思想。通过直观的界面，用户可以高效创建、编辑和分享思维导图，提升创意和工作效率。无论是个人学习、团队协作还是项目管理，这款工具都将是您理想的助力。

AI驱动的思维导图生成器人工智能脑图

Find AI tools in YBX