阿里雲,這家中國電子商務巨頭的雲服務部門,推出了最新的視覺語言模型Qwen2-VL,旨在提升視覺理解、視頻分析以及多語言文本圖像處理能力。根據第三方基準測試,Qwen2-VL在表現上超越了包括Meta的Llama 3.1、OpenAI的GPT-4o、Anthropic的Claude 3 Haiku和Google的Gemini-1.5 Flash等領先模型。您可以在Hugging Face上進行實驗。
支持語言:英語、中文、大多數歐洲語言、日語、韓語、阿拉伯語和越南語。
先進的視覺和視頻分析
阿里雲希望通過Qwen-2VL重新定義人工智能與視覺數據的互動。該模型能夠分析多語言手寫文字、識別及描述圖像中的物體,並以接近實時的速度處理直播視頻,特別適用於技術支持和現場操作任務。在GitHub的博客文章中,Qwen研究團隊強調:“除了靜態圖像,Qwen2-VL還擴展到視頻內容分析。它能總結視頻資訊、回答相關問題並維持實時對話,使其成為用戶的個人助手,直接提供來自視頻內容的洞見。”值得注意的是,Qwen-2VL可以分析超過20分鐘的視頻並回答有關內容的問題。
示例視頻摘要
在一次演示中,Qwen2-VL成功總結了一段顯示宇航員在太空站內討論任務的視頻,讓觀眾深入了解太空探索。
模型變種與開源選項
Qwen2-VL提供三個變種:Qwen2-VL-72B(擁有720億參數)、Qwen2-VL-7B和Qwen2-VL-2B。7B和2B版本在Apache 2.0許可下開源,對企業而言極具吸引力,這些變種設計旨在以可及的規模實現競爭性能,並在Hugging Face和ModelScope等平台上提供。然而,最大的72B模型將稍後以單獨的許可和API上市。
功能與整合
Qwen2-VL系列基於Qwen模型家族,具備多項進步功能,包括:
- 整合至手機和機器人等設備中,支持基於視覺和文本輸入的自動操作。
- 功能調用能力,允許與第三方軟件和應用程序的交互,理解關鍵信息,例如航班狀態和包裹追踪。
這些功能使得Qwen2-VL成為一款強大的工具,適用於需要複雜推理和決策的任務。
架構創新
Qwen2-VL包含多項架構創新,以提升視覺數據處理能力。直覺動態解析支持可處理不同解析度的圖像,確保視覺解讀的準確性。多模態旋轉位置嵌入(M-ROPE)系統則讓模型有效整合文本、圖像和視頻中的位置信息。
Qwen團隊的未來發展
Qwen團隊致力於通過整合更多模態來推進視覺語言模型,並增強模型的應用。Qwen2-VL模型目前已向開發者和研究者開放,幫助他們探索這些尖端工具的潛力。