苹果公司的研究人员推出了ToolSandbox,这是一个创新的基准测试工具,旨在全面评估人工智能助手在实际应用中的能力。该研究在最近的arXiv出版物中详细介绍,解决了现有大语言模型(LLM)在使用外部工具时的评估方法中的关键空白。
ToolSandbox引入了三个常被其他基准忽视的重要元素:状态性交互、对话能力和动态评估。首席作者Jiarui Lu表示:“ToolSandbox包含状态工具执行、工具之间隐含的状态依赖、内置用户模拟器支持的实时对话评估,以及动态评估策略。”
这一基准测试旨在准确反映现实场景。例如,它可以评估一个AI助手是否理解在发送短信之前需要开启设备的蜂窝服务,这一任务需要推理系统当前状态并做出相应调整。
专有模型优于开源模型,但仍面临挑战
在使用ToolSandbox对多种AI模型进行测试时,研究人员发现专有模型与开源模型之间存在明显的性能差异。这一发现与近期关于开源AI迅速逼近专有系统的说法相悖。例如,初创公司Galileo最近的基准测试表明开源模型有所进展,而Meta和Mistral推出的模型声称可以匹敌领先的专有系统。
然而,苹果研究显示,即便是最先进的AI助手在涉及状态依赖、标准化(将用户输入转换为标准格式的过程)和信息有限的复杂任务时也面临困难。研究人员指出:“我们的研究表明,开源和专有模型之间存在显著的性能差距,而ToolSandbox定义的复杂任务对最先进的LLM而言也具有挑战性,这为工具使用能力提供了新的见解。”
有趣的是,研究还显示,在处理状态依赖的场景中,大型模型有时表现不如小型模型。这表明,仅仅依靠模型大小并不能保证在处理复杂现实任务时获得更好的性能。
理解AI性能的复杂性
ToolSandbox的建立可能会对AI助手的发展和评估产生重大影响。通过提供一个现实的测试环境,研究人员能够更好地识别和解决当前AI系统的关键限制,从而开发出更强大、更可靠的AI助手。
随着AI越来越多地融入日常生活,像ToolSandbox这样的基准测试将对确保这些系统能够应对现实互动的复杂性和细微差别至关重要。研究团队计划近期在GitHub上发布ToolSandbox评估框架,鼓励更广泛的AI社区参与并提升这一重要项目。
尽管最近在开源AI方面取得的进展引发了对民主访问尖端工具的热情,但苹果的研究强调,在创建能够处理复杂现实任务的AI系统方面,仍面临巨大挑战。随着这一领域的快速发展,像ToolSandbox这样严格的基准将对区分炒作与现实、引导真正有效的AI助手的发展起到关键作用。