Sierra的新基准测试凸显了人工智能代理在实际任务中的表现

Home AI News CN Sierra的新基准测试凸显了人工智能代理在实际任务中的表现

Sierra推出TAU-bench：评估对话AI的新标准

Sierra，一家由OpenAI董事会成员Bret Taylor和谷歌AR/VR资深专家Clay Bavor共同创立的人工智能初创公司，推出了TAU-bench——一个革命性的基准测试工具，用于评估对话AI的表现。该工具通过与模拟用户进行多轮交流，严格测试AI代理完成复杂任务的能力。初步调查显示，使用基础大语言模型(LLM)机制如功能调用或ReAct的AI代理在处理简单任务时也面临困难，这表明开发更复杂的代理架构的迫切需求。

开发者可以在Sierra的GitHub上访问TAU-bench的代码。

TAU-bench的重要见解

Sierra的研究主管Karthik Narasimhan表示：“在Sierra，我们在部署以用户为中心的对话代理方面的经验表明，准确测量代理的性能和可靠性对于成功部署至关重要。”他强调，在推出AI代理之前，企业必须在现实场景中评估其有效性。

Narasimhan批评现有基准测试工具如WebArena、SWE-bench和Agentbench的局限性。他指出，尽管这些工具可以突出代理的高级能力，但通常仅评估单次交互。例如：

用户：“今天纽约的天气怎么样？”

AI：“今天纽约晴天，最高气温75°F（24°C），最低气温60°F（16°C）。”

在实际情况下，代理必须通过多轮动态交流来获取信息：

用户：“我想订机票。”

AI：“当然！从哪里飞到哪里？”

用户：“从芝加哥到迈阿密。”

AI：“明白了。您希望什么时候出发？”

用户：“下个星期五。”

AI：“好的。您对出发时间有偏好吗？”（对话继续）

这些基准测试关注平均性能等一阶统计数据，但未能有效地评估可靠性或适应性。

TAU-bench的关键要求

为了解决这些不足，Sierra设立了TAU-bench的三个基本要求：

1. 现实互动：代理必须能够与人类和程序化API无缝互动，解决复杂问题。

2. 复杂规则遵循：代理需要准确遵循特定任务的复杂政策。

3. 一致性和可靠性：代理必须在大规模操作中表现出可靠的性能，提升企业对其操作行为的信心。

TAU-bench包括多种任务，能够与真实数据库和工具API互动，同时遵循特定领域的政策文件。它配备了一个基于LLM的用户模拟器，设计用于创建多样化的场景，实现真实的互动。每个任务评估代理遵循规则、有效推理、保持长时间上下文和流畅沟通的能力。

TAU-bench的主要特点

Narasimhan强调了TAU-bench的四个主要特点：

1. 真实对话和工具使用：使用自然语言生成复杂用户场景，避免冗长的基于规则的脚本。

2. 开放式和多样化任务：该框架支持丰富、详细的任务，不设定预定义解决方案，确保AI代理能够处理各种现实场景。

3. 客观评估：TAU-bench评估任务结果，而非对话质量，提供对AI代理成功实现目标的公正评估，而不依赖人类评估者。

4. 模块化框架：TAU-bench构建如同积木，易于适应新领域、API、任务和评估指标。

如何评估AI模型在TAU-bench上的表现？

Sierra使用TAU-bench评估了来自OpenAI、Anthropic（不包括Claude 3.5 Sonnet）、谷歌和Mistral的12个主要LLM。结果显示，表现最好的代理OpenAI的GPT-4o在两个领域的成功率不到50%。同时，所有测试代理在重复试验时的可靠性“极其差”，无法一致解决相同任务。

这些洞察使Narasimhan断言，更先进的LLM对于增强推理、规划和任务复杂性至关重要。他还倡导创建自动标注工具和开发更精细的评估指标，以评估代理行为的其他方面，如语气和对话风格。

探索OpenAI在2024年VB Transform大会上的商业转型洞察

GrayMatter获4500万美元融资，利用先进的“物理知识人工智能”机器人革新制造业