苹果的ToolSandbox揭示显著差距：开源AI落后于专有模型

Home AI News CN 苹果的ToolSandbox揭示显著差距：开源AI落后于专有模型

苹果公司的研究人员推出了ToolSandbox，这是一个创新的基准测试工具，旨在全面评估人工智能助手在实际应用中的能力。该研究在最近的arXiv出版物中详细介绍，解决了现有大语言模型（LLM）在使用外部工具时的评估方法中的关键空白。

ToolSandbox引入了三个常被其他基准忽视的重要元素：状态性交互、对话能力和动态评估。首席作者Jiarui Lu表示：“ToolSandbox包含状态工具执行、工具之间隐含的状态依赖、内置用户模拟器支持的实时对话评估，以及动态评估策略。”

这一基准测试旨在准确反映现实场景。例如，它可以评估一个AI助手是否理解在发送短信之前需要开启设备的蜂窝服务，这一任务需要推理系统当前状态并做出相应调整。

专有模型优于开源模型，但仍面临挑战

在使用ToolSandbox对多种AI模型进行测试时，研究人员发现专有模型与开源模型之间存在明显的性能差异。这一发现与近期关于开源AI迅速逼近专有系统的说法相悖。例如，初创公司Galileo最近的基准测试表明开源模型有所进展，而Meta和Mistral推出的模型声称可以匹敌领先的专有系统。

然而，苹果研究显示，即便是最先进的AI助手在涉及状态依赖、标准化（将用户输入转换为标准格式的过程）和信息有限的复杂任务时也面临困难。研究人员指出：“我们的研究表明，开源和专有模型之间存在显著的性能差距，而ToolSandbox定义的复杂任务对最先进的LLM而言也具有挑战性，这为工具使用能力提供了新的见解。”

有趣的是，研究还显示，在处理状态依赖的场景中，大型模型有时表现不如小型模型。这表明，仅仅依靠模型大小并不能保证在处理复杂现实任务时获得更好的性能。

理解AI性能的复杂性

ToolSandbox的建立可能会对AI助手的发展和评估产生重大影响。通过提供一个现实的测试环境，研究人员能够更好地识别和解决当前AI系统的关键限制，从而开发出更强大、更可靠的AI助手。

随着AI越来越多地融入日常生活，像ToolSandbox这样的基准测试将对确保这些系统能够应对现实互动的复杂性和细微差别至关重要。研究团队计划近期在GitHub上发布ToolSandbox评估框架，鼓励更广泛的AI社区参与并提升这一重要项目。

尽管最近在开源AI方面取得的进展引发了对民主访问尖端工具的热情，但苹果的研究强调，在创建能够处理复杂现实任务的AI系统方面，仍面临巨大挑战。随着这一领域的快速发展，像ToolSandbox这样严格的基准将对区分炒作与现实、引导真正有效的AI助手的发展起到关键作用。

提升就医体验：生成性人工智能如何改变患者访医生的方式

Devin，让开吧：Cosine的Genie夺得AI编码卓越之冠

Most people like

VisibleThread

15.1K

AI驱动的商业写作平台提升写作效率和质量

AI驱动平台 AI 内容检测器

Voicemaker®

854.3K

Voicemaker®是一款强大的文本转语音工具，能够将文字转换为自然的语音，提供多种语音配置和个性化自定义选项。

文本转语音 AI语音识别

Stammer.ai

25.7K

白标AI SaaS：构建和转售AI代理的理想解决方案在快速发展的数字时代，白标AI SaaS为企业提供了一种优秀的工具，可以轻松构建和转售AI代理。凭借强大的功能和灵活性，这种解决方案使公司能够无缝集成智能自动化，提高服务效率，同时拓宽收入来源。无论您是初创公司还是成熟企业，白标AI SaaS都是实现AI驱动增长的理想选择。

白标AI平台销售助手

Pitch N Hire

99.8K

Pitch N Hire是一款基于人工智能技术的软件，旨在简化招聘流程，提高招聘效率。通过智能化工具，Pitch N Hire帮助企业找到最佳候选人，节省时间和资源。

申请人追踪系统 AI招聘

Find AI tools in YBX