阿里巴巴云,作为中国电商巨头的云服务部门,推出了最新的视觉语言模型Qwen2-VL,旨在提升视觉理解、视频分析和多语言文本图像处理能力。
根据第三方基准测试,Qwen2-VL的表现优于Meta的Llama 3.1、OpenAI的GPT-4o、Anthropic的Claude 3 Haiku和Google的Gemini-1.5 Flash。用户可以在Hugging Face上进行实验。
支持语言:英语、中文、绝大多数欧洲语言、日语、韩语、阿拉伯语和越南语。
高级视觉和视频分析
阿里巴巴致力于通过Qwen2-VL重新定义与视觉数据的人工智能互动。该模型可以识别多种语言的手写内容,识别并描述图像中的物体,以及近实时处理直播视频,适用于技术支持和现场操作任务。
Qwen研究团队在GitHub博客中指出:“除了静态图像,Qwen2-VL还扩展了对视频内容分析的能力。它可以总结视频内容、回答相关问题,并保持实时对话,这使其能够充当用户的个人助手,直接提取视频内容中的见解。”
值得注意的是,Qwen2-VL能够分析超过20分钟的视频并回答有关内容的问题。
示例视频总结:在一次演示中,Qwen2-VL有效总结了一段宇航员在空间站内讨论任务的视频,为观众呈现了引人入胜的太空探索场景。
模型变体与开源选项
Qwen2-VL有三个变体:Qwen2-VL-72B(720亿参数)、Qwen2-VL-7B和Qwen2-VL-2B。7B和2B版本在Apache 2.0许可证下开放源代码,非常适合企业使用。这些变体旨在提供竞争力的性能,且具有可访问性,现已在Hugging Face和ModelScope等平台上提供。
不过,最大的72B模型将稍后以独立许可证和API的形式发布。
功能与集成
Qwen2-VL系列基于Qwen模型家族,具备以下先进功能:
- 可集成到移动电话和机器人等设备中,基于视觉和文本输入自动执行操作。
- 可以调用功能,与第三方软件和应用程序互动,理解航班状态、包裹追踪等关键信息。
这些特性使Qwen2-VL成为处理复杂推理和决策任务的强大工具。
架构创新
Qwen2-VL通过多项架构改进增强视觉数据处理能力。支持自适应动态分辨率,确保在处理不同分辨率图像时保持准确性。多模态旋转位置嵌入(M-ROPE)系统则允许模型有效地整合文本、图像和视频的位置信息。
Qwen团队的未来发展
Qwen团队致力于通过整合额外的模态和增强模型的应用来推动视觉语言模型的发展。Qwen2-VL模型现已向开发者和研究人员开放,欢迎探索这些前沿工具的潜力。