LMSYS組織推出了其「多模態競技場」,這是一個革命性的領先榜單,根據AI模型在視覺任務中的表現進行評價。僅僅兩週內,該競技場已收集來自60多種語言的17,000多票用戶偏好,展示了當前AI在視覺處理方面的能力。
OpenAI的GPT-4o模型在多模態競技場領先榜上位居首位,緊隨其後的是Anthropic的Claude 3.5 Sonnet和Google的Gemini 1.5 Pro。這一排名突顯了在快速變化的多模態AI領域中,各大科技公司之間的激烈競爭。
有趣的是,開源模型LLaVA-v1.6-34B的表現可以與一些專有模型(如Claude 3 Haiku)相媲美,這表明先進AI能力有可能實現民主化,使研究人員和小型企業能夠更好地接觸尖端技術。
該領先榜涵蓋了廣泛的任務,包括圖像標題生成、數學問題解決、文件理解和迷因解讀。這種多樣性旨在全面呈現每個模型的視覺處理能力,以滿足現實應用中的複雜需求。
然而,儘管多模態競技場提供了有價值的見解,但它主要衡量的是用戶偏好,而非客觀準確性。普林斯頓大學研究人員最近推出的CharXiv基準提供了一個更為清醒的視角,評估AI在解讀科學論文中的圖表表現。
CharXiv的結果揭示了當前AI系統的重大局限性。表現最佳的模型GPT-4o僅達到47.1%的準確率,而最佳開源模型則為29.2%。相比之下,人類的準確率為80.5%,顯示AI在解讀複雜視覺數據方面存在相當大的差距。
這一差距凸顯了AI發展中的一大挑戰:儘管在物體識別和基本圖像標題生成等任務上取得顯著進展,但AI在細膩推理和上下文理解方面仍然無法與人類相提並論。
多模態競技場的揭幕及CharXiv等基準的洞察,正值AI行業至關重要的時刻。隨著企業努力將多模態AI整合到虛擬助手和自動駕駛汽車等產品中,了解這些系統的真正局限性變得愈加重要。
這些基準充當現實檢驗,抵消了有關AI能力的過高聲稱,並為研究人員提供了戰略方向,指明了需要改進的領域,以達到人類級別的視覺理解。
AI與人類在複雜視覺任務中的性能差距,同時帶來了挑戰和機會。這表明,在實現強大視覺智能方面,可能需要對AI架構或訓練方法進行改進,同時為計算機視覺、自然語言處理和認知科學的創新鋪平道路。
隨著AI社群反思這些發現,預期會重申開發不僅能感知而且能真正理解視覺世界的模型的重要性。創造可能在複雜視覺推理任務中達到甚至超越人類理解的AI系統的競賽已經開始。