Sierra推出TAU-bench:評估對話AI代理的新標準
Sierra是一家由OpenAI董事會成員Bret Taylor和Google AR/VR資深專家Clay Bavor共同創立的AI初創企業,近期推出了TAU-bench,這是一個革命性的基準,用於評估對話AI的表現。這一工具嚴格測試AI代理在與大型語言模型(LLM)模擬用戶進行多次交流時完成複雜任務的能力。初步結果顯示,利用基本LLM機制如函數調用或ReAct的AI代理,面對即便是簡單任務也相當吃力,這突顯出對更精密代理架構的迫切需求。開發者可以在Sierra的GitHub存儲庫中獲取TAU-bench代碼。
TAU-bench:關鍵見解
Sierra研究主任Karthik Narasimhan表示:“在Sierra,我們在部署以用戶為中心的對話代理方面的經驗顯示,準確衡量代理的表現和可靠性對於成功部署至關重要。”他強調,公司在推出AI代理之前,必須在現實場景中評估其有效性。
Narasimhan對現有基準如WebArena、SWE-bench和Agentbench提出評論,指出其局限性。儘管這些工具能突顯代理的高層能力,但通常僅評估單次交互。例如:
用戶:“今天紐約的天氣怎麼樣?”
AI:“今天紐約是晴天,最高氣溫75°F(24°C),最低氣溫60°F(16°C)。”
在實際應用中,代理必須透過多次動態交流來收集信息:
用戶:“我想訂票。”
AI:“好的!從哪裡到哪裡?”
用戶:“從芝加哥到邁阿密。”
AI:“明白了。您希望什麼時候出行?”
用戶:“下周五。”
AI:“好的。您對出發時間有偏好嗎?”(對話繼續)
這些基準側重於一級統計數據,如平均表現,但未能有效測量可靠性或適應能力。
TAU-bench的關鍵要求
為了解決這些不足,Sierra為TAU-bench確立了三個基本要求:
1. 實際互動:代理必須能夠與人類和程序API無縫交流,長時間解決複雜問題。
2. 複雜規則遵循:代理需要準確遵循其任務專用的複雜政策。
3. 一致性和可靠性:代理必須在大規模操作中展現出可靠的表現,使企業對其行為充滿信心。
TAU-bench包括各種任務,如與現實數據庫和工具API的互動,並遵循特定領域的政策文件。它包含一個基於LLM的用戶模擬器,旨在創造多樣化場景以模擬真實互動。每個任務評估代理遵循規則、有效推理、保持長期上下文和流暢交流的能力。
TAU-bench的主要特徵
Narasimhan強調了TAU-bench的四個主要特徵:
1. 真實對話與工具使用:使用自然語言生成複雜的用戶場景,遠離繁瑣的基於規則的腳本。
2. 開放式與多樣化任務:該框架支持豐富且詳細的任務,不設預定解決方案,確保AI代理能應對各種現實場景。
3. 客觀評估:TAU-bench更注重任務結果而非對話質量,提供對AI代理在達成目標方面的無偏見評估,無需依賴人工評估者。
4. 模塊化框架:TAU-bench如同積木般組建,能輕鬆適應新的領域、API、任務和評估指標。
AI模型在TAU-bench中的表現
Sierra使用TAU-bench評估了來自OpenAI、Anthropic(不包含Claude 3.5 Sonnet)、Google和Mistral的12個知名LLM。結果顯示挑戰重大,表現最佳的代理OpenAI的GPT-4o在兩個領域的成功率低於50%。此外,所有測試代理在重複試驗中表現出“極差”的可靠性,未能持續解決相同任務。
這些見解使Narasimhan斷言,提升推理、計劃和場景複雜性需要更先進的LLM。他還提倡開發自動標註工具和更細緻的評估指標,以評估代理行為的其他方面,如語調和對話風格。