Sierra推出TAU-bench:评估对话AI的新标准
Sierra,一家由OpenAI董事会成员Bret Taylor和谷歌AR/VR资深专家Clay Bavor共同创立的人工智能初创公司,推出了TAU-bench——一个革命性的基准测试工具,用于评估对话AI的表现。该工具通过与模拟用户进行多轮交流,严格测试AI代理完成复杂任务的能力。初步调查显示,使用基础大语言模型(LLM)机制如功能调用或ReAct的AI代理在处理简单任务时也面临困难,这表明开发更复杂的代理架构的迫切需求。
开发者可以在Sierra的GitHub上访问TAU-bench的代码。
TAU-bench的重要见解
Sierra的研究主管Karthik Narasimhan表示:“在Sierra,我们在部署以用户为中心的对话代理方面的经验表明,准确测量代理的性能和可靠性对于成功部署至关重要。”他强调,在推出AI代理之前,企业必须在现实场景中评估其有效性。
Narasimhan批评现有基准测试工具如WebArena、SWE-bench和Agentbench的局限性。他指出,尽管这些工具可以突出代理的高级能力,但通常仅评估单次交互。例如:
用户:“今天纽约的天气怎么样?”
AI:“今天纽约晴天,最高气温75°F(24°C),最低气温60°F(16°C)。”
在实际情况下,代理必须通过多轮动态交流来获取信息:
用户:“我想订机票。”
AI:“当然!从哪里飞到哪里?”
用户:“从芝加哥到迈阿密。”
AI:“明白了。您希望什么时候出发?”
用户:“下个星期五。”
AI:“好的。您对出发时间有偏好吗?”(对话继续)
这些基准测试关注平均性能等一阶统计数据,但未能有效地评估可靠性或适应性。
TAU-bench的关键要求
为了解决这些不足,Sierra设立了TAU-bench的三个基本要求:
1. 现实互动:代理必须能够与人类和程序化API无缝互动,解决复杂问题。
2. 复杂规则遵循:代理需要准确遵循特定任务的复杂政策。
3. 一致性和可靠性:代理必须在大规模操作中表现出可靠的性能,提升企业对其操作行为的信心。
TAU-bench包括多种任务,能够与真实数据库和工具API互动,同时遵循特定领域的政策文件。它配备了一个基于LLM的用户模拟器,设计用于创建多样化的场景,实现真实的互动。每个任务评估代理遵循规则、有效推理、保持长时间上下文和流畅沟通的能力。
TAU-bench的主要特点
Narasimhan强调了TAU-bench的四个主要特点:
1. 真实对话和工具使用:使用自然语言生成复杂用户场景,避免冗长的基于规则的脚本。
2. 开放式和多样化任务:该框架支持丰富、详细的任务,不设定预定义解决方案,确保AI代理能够处理各种现实场景。
3. 客观评估:TAU-bench评估任务结果,而非对话质量,提供对AI代理成功实现目标的公正评估,而不依赖人类评估者。
4. 模块化框架:TAU-bench构建如同积木,易于适应新领域、API、任务和评估指标。
如何评估AI模型在TAU-bench上的表现?
Sierra使用TAU-bench评估了来自OpenAI、Anthropic(不包括Claude 3.5 Sonnet)、谷歌和Mistral的12个主要LLM。结果显示,表现最好的代理OpenAI的GPT-4o在两个领域的成功率不到50%。同时,所有测试代理在重复试验时的可靠性“极其差”,无法一致解决相同任务。
这些洞察使Narasimhan断言,更先进的LLM对于增强推理、规划和任务复杂性至关重要。他还倡导创建自动标注工具和开发更精细的评估指标,以评估代理行为的其他方面,如语气和对话风格。