阿里巴巴推出 Qwen2-VL：新型 AI 模型可分析超過 20 分鐘的影片

Home AI新聞阿里巴巴推出 Qwen2-VL：新型 AI 模型可分析超過 20 分鐘的影片

阿里雲，這家中國電子商務巨頭的雲服務部門，推出了最新的視覺語言模型Qwen2-VL，旨在提升視覺理解、視頻分析以及多語言文本圖像處理能力。根據第三方基準測試，Qwen2-VL在表現上超越了包括Meta的Llama 3.1、OpenAI的GPT-4o、Anthropic的Claude 3 Haiku和Google的Gemini-1.5 Flash等領先模型。您可以在Hugging Face上進行實驗。

支持語言：英語、中文、大多數歐洲語言、日語、韓語、阿拉伯語和越南語。

先進的視覺和視頻分析

阿里雲希望通過Qwen-2VL重新定義人工智能與視覺數據的互動。該模型能夠分析多語言手寫文字、識別及描述圖像中的物體，並以接近實時的速度處理直播視頻，特別適用於技術支持和現場操作任務。在GitHub的博客文章中，Qwen研究團隊強調：“除了靜態圖像，Qwen2-VL還擴展到視頻內容分析。它能總結視頻資訊、回答相關問題並維持實時對話，使其成為用戶的個人助手，直接提供來自視頻內容的洞見。”值得注意的是，Qwen-2VL可以分析超過20分鐘的視頻並回答有關內容的問題。

示例視頻摘要

在一次演示中，Qwen2-VL成功總結了一段顯示宇航員在太空站內討論任務的視頻，讓觀眾深入了解太空探索。

模型變種與開源選項

Qwen2-VL提供三個變種：Qwen2-VL-72B（擁有720億參數）、Qwen2-VL-7B和Qwen2-VL-2B。7B和2B版本在Apache 2.0許可下開源，對企業而言極具吸引力，這些變種設計旨在以可及的規模實現競爭性能，並在Hugging Face和ModelScope等平台上提供。然而，最大的72B模型將稍後以單獨的許可和API上市。

功能與整合

Qwen2-VL系列基於Qwen模型家族，具備多項進步功能，包括：

- 整合至手機和機器人等設備中，支持基於視覺和文本輸入的自動操作。

- 功能調用能力，允許與第三方軟件和應用程序的交互，理解關鍵信息，例如航班狀態和包裹追踪。

這些功能使得Qwen2-VL成為一款強大的工具，適用於需要複雜推理和決策的任務。

架構創新

Qwen2-VL包含多項架構創新，以提升視覺數據處理能力。直覺動態解析支持可處理不同解析度的圖像，確保視覺解讀的準確性。多模態旋轉位置嵌入（M-ROPE）系統則讓模型有效整合文本、圖像和視頻中的位置信息。

Qwen團隊的未來發展

Qwen團隊致力於通過整合更多模態來推進視覺語言模型，並增強模型的應用。Qwen2-VL模型目前已向開發者和研究者開放，幫助他們探索這些尖端工具的潛力。

Meta 點燃開源 AI 革命，Llama 下載量年增 10 倍

不知疲倦的夥伴：代理型人工智慧如何徹底改革軟體開發團隊