Sierra的新基準突顯AI代理在實際任務中的表現

Home AI新聞 Sierra的新基準突顯AI代理在實際任務中的表現

Sierra推出TAU-bench：評估對話AI代理的新標準

Sierra是一家由OpenAI董事會成員Bret Taylor和Google AR/VR資深專家Clay Bavor共同創立的AI初創企業，近期推出了TAU-bench，這是一個革命性的基準，用於評估對話AI的表現。這一工具嚴格測試AI代理在與大型語言模型（LLM）模擬用戶進行多次交流時完成複雜任務的能力。初步結果顯示，利用基本LLM機制如函數調用或ReAct的AI代理，面對即便是簡單任務也相當吃力，這突顯出對更精密代理架構的迫切需求。開發者可以在Sierra的GitHub存儲庫中獲取TAU-bench代碼。

TAU-bench：關鍵見解

Sierra研究主任Karthik Narasimhan表示：“在Sierra，我們在部署以用戶為中心的對話代理方面的經驗顯示，準確衡量代理的表現和可靠性對於成功部署至關重要。”他強調，公司在推出AI代理之前，必須在現實場景中評估其有效性。

Narasimhan對現有基準如WebArena、SWE-bench和Agentbench提出評論，指出其局限性。儘管這些工具能突顯代理的高層能力，但通常僅評估單次交互。例如：

用戶：“今天紐約的天氣怎麼樣？”

AI：“今天紐約是晴天，最高氣溫75°F（24°C），最低氣溫60°F（16°C）。”

在實際應用中，代理必須透過多次動態交流來收集信息：

用戶：“我想訂票。”

AI：“好的！從哪裡到哪裡？”

用戶：“從芝加哥到邁阿密。”

AI：“明白了。您希望什麼時候出行？”

用戶：“下周五。”

AI：“好的。您對出發時間有偏好嗎？”（對話繼續）

這些基準側重於一級統計數據，如平均表現，但未能有效測量可靠性或適應能力。

TAU-bench的關鍵要求

為了解決這些不足，Sierra為TAU-bench確立了三個基本要求：

1. 實際互動：代理必須能夠與人類和程序API無縫交流，長時間解決複雜問題。

2. 複雜規則遵循：代理需要準確遵循其任務專用的複雜政策。

3. 一致性和可靠性：代理必須在大規模操作中展現出可靠的表現，使企業對其行為充滿信心。

TAU-bench包括各種任務，如與現實數據庫和工具API的互動，並遵循特定領域的政策文件。它包含一個基於LLM的用戶模擬器，旨在創造多樣化場景以模擬真實互動。每個任務評估代理遵循規則、有效推理、保持長期上下文和流暢交流的能力。

TAU-bench的主要特徵

Narasimhan強調了TAU-bench的四個主要特徵：

1. 真實對話與工具使用：使用自然語言生成複雜的用戶場景，遠離繁瑣的基於規則的腳本。

2. 開放式與多樣化任務：該框架支持豐富且詳細的任務，不設預定解決方案，確保AI代理能應對各種現實場景。

3. 客觀評估：TAU-bench更注重任務結果而非對話質量，提供對AI代理在達成目標方面的無偏見評估，無需依賴人工評估者。

4. 模塊化框架：TAU-bench如同積木般組建，能輕鬆適應新的領域、API、任務和評估指標。

AI模型在TAU-bench中的表現

Sierra使用TAU-bench評估了來自OpenAI、Anthropic（不包含Claude 3.5 Sonnet）、Google和Mistral的12個知名LLM。結果顯示挑戰重大，表現最佳的代理OpenAI的GPT-4o在兩個領域的成功率低於50%。此外，所有測試代理在重複試驗中表現出“極差”的可靠性，未能持續解決相同任務。

這些見解使Narasimhan斷言，提升推理、計劃和場景複雜性需要更先進的LLM。他還提倡開發自動標註工具和更細緻的評估指標，以評估代理行為的其他方面，如語調和對話風格。

探索OpenAI在VB Transform 2024中的企業轉型洞察

GrayMatter 獲得 4500 萬美元資金，革新製造業，推動先進的「物理知識 AI」機器人技術。