Apple 的 ToolSandbox 揭示了明顯的差距:開源 AI 落後於專有模型

蘋果的研究團隊推出了ToolSandbox,一個創新的基準測試,旨在徹底評估人工智慧助手的實際能力。這項研究在最近的arXiv發表中詳細說明,針對現有大規模語言模型(LLMs)使用外部工具的評估方法中的關鍵漏洞。

ToolSandbox引入了三個其他基準常常忽略的重要元素:有狀態的互動、對話技巧和動態評估。首席作者陸嘉瑞表示:「ToolSandbox包括有狀態的工具執行、工具之間的隱式狀態依賴、支持策略對話評估的內建用戶模擬器以及動態評估策略。」

此基準測試旨在準確反映現實場景。例如,它可以評估人工智慧助手是否理解在發送短信之前需要啟用設備的行動服務,這需要推理系統當前的狀態並做出適當的調整。

專有模型優於開源,挑戰依舊存在

在使用ToolSandbox測試多種人工智慧模型時,研究人員發現專有模型和開源模型之間存在顯著的性能差異。這一發現與最近的聲稱相矛盾,暗示開源AI正在迅速趕上專有系統。例如,初創公司Galileo的最近基準表明開源模型取得了進展,而Meta和Mistral則推出了聲稱能與領先的專有系統抗衡的模型。

然而,蘋果的研究顯示,即使是最先進的人工智慧助手在涉及狀態依賴、正規化(將用戶輸入轉換為標準格式的過程)及信息有限的情況下,也面臨困難。作者指出:「我們表明開源和專有模型之間存在顯著的性能差距,ToolSandbox中定義的複雜任務甚至對最具能力的最先進LLMs也提出了挑戰,並提供了工具使用能力的新見解。」

有趣的是,研究顯示在涉及狀態依賴的情境中,較大的模型有時表現未必優於較小的模型。這表明僅僅依賴模型的大小並不能保證其在處理複雜現實任務中的卓越表現。

理解人工智慧性能的複雜性

ToolSandbox的建立可能會顯著影響人工智慧助手的發展和評估。通過提供真實的測試環境,研究人員可以更好地識別並解決當前人工智慧系統的關鍵限制,從而打造出更具能力和可靠性的人工智慧助手。

隨著人工智慧日益融入日常生活,像ToolSandbox這樣的基準將對確保這些系統能夠駕駛複雜和微妙的現實互動至關重要。研究團隊計劃不久後在GitHub上發布ToolSandbox評估框架,鼓勵更廣泛的AI社區對這一重要倡議進行貢獻和增強。

儘管最近在開源AI方面的進展引發了對於民主化尖端工具的熱情,但蘋果的研究強調,創建能夠管理複雜現實任務的人工智慧系統仍面臨相當大的挑戰。隨著該領域的快速發展,像ToolSandbox這樣的嚴謹基準將對區分炒作與現實及引導真正有效的人工智慧助手的發展至關重要。

Most people like

Find AI tools in YBX