阿里巴巴推出 Qwen2-VL:新型 AI 模型可分析超過 20 分鐘的影片

阿里雲,這家中國電子商務巨頭的雲服務部門,推出了最新的視覺語言模型Qwen2-VL,旨在提升視覺理解、視頻分析以及多語言文本圖像處理能力。根據第三方基準測試,Qwen2-VL在表現上超越了包括Meta的Llama 3.1、OpenAI的GPT-4o、Anthropic的Claude 3 Haiku和Google的Gemini-1.5 Flash等領先模型。您可以在Hugging Face上進行實驗。

支持語言:英語、中文、大多數歐洲語言、日語、韓語、阿拉伯語和越南語。

先進的視覺和視頻分析

阿里雲希望通過Qwen-2VL重新定義人工智能與視覺數據的互動。該模型能夠分析多語言手寫文字、識別及描述圖像中的物體,並以接近實時的速度處理直播視頻,特別適用於技術支持和現場操作任務。在GitHub的博客文章中,Qwen研究團隊強調:“除了靜態圖像,Qwen2-VL還擴展到視頻內容分析。它能總結視頻資訊、回答相關問題並維持實時對話,使其成為用戶的個人助手,直接提供來自視頻內容的洞見。”值得注意的是,Qwen-2VL可以分析超過20分鐘的視頻並回答有關內容的問題。

示例視頻摘要

在一次演示中,Qwen2-VL成功總結了一段顯示宇航員在太空站內討論任務的視頻,讓觀眾深入了解太空探索。

模型變種與開源選項

Qwen2-VL提供三個變種:Qwen2-VL-72B(擁有720億參數)、Qwen2-VL-7B和Qwen2-VL-2B。7B和2B版本在Apache 2.0許可下開源,對企業而言極具吸引力,這些變種設計旨在以可及的規模實現競爭性能,並在Hugging Face和ModelScope等平台上提供。然而,最大的72B模型將稍後以單獨的許可和API上市。

功能與整合

Qwen2-VL系列基於Qwen模型家族,具備多項進步功能,包括:

- 整合至手機和機器人等設備中,支持基於視覺和文本輸入的自動操作。

- 功能調用能力,允許與第三方軟件和應用程序的交互,理解關鍵信息,例如航班狀態和包裹追踪。

這些功能使得Qwen2-VL成為一款強大的工具,適用於需要複雜推理和決策的任務。

架構創新

Qwen2-VL包含多項架構創新,以提升視覺數據處理能力。直覺動態解析支持可處理不同解析度的圖像,確保視覺解讀的準確性。多模態旋轉位置嵌入(M-ROPE)系統則讓模型有效整合文本、圖像和視頻中的位置信息。

Qwen團隊的未來發展

Qwen團隊致力於通過整合更多模態來推進視覺語言模型,並增強模型的應用。Qwen2-VL模型目前已向開發者和研究者開放,幫助他們探索這些尖端工具的潛力。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles