GAIA基准:新一代人工智能应对现实世界挑战

一个新的人工智能基准GAIA旨在评估像ChatGPT这样的聊天机器人是否能够在人类日常任务中展示类人的推理和技能。GAIA由Meta、Hugging Face、AutoGPT和GenAI团队共同开发,提出了一系列需要基本能力的问题,如推理、多模态处理、网络浏览和工具使用。这些研究结果已发表于arXiv。

研究人员指出,GAIA的问题对人类来说“概念上简单,但对大多数先进的人工智能而言极具挑战性。”在测试中,参与测试的人类得分高达92%,而使用插件的GPT-4仅得了15%。

“这一显著的表现差异与近期大型语言模型在法律或化学等专业任务上优于人类的趋势形成鲜明对比,”作者表示。

GAIA专注于类人能力,而非专业知识

与传统基准强调人类难以完成的任务不同,研究人员提倡关注能够揭示人工智能匹配普通人能力的任务。GAIA团队设计了466个具有明确答案的现实问题,其中300个问题保密,以贡献于GAIA的公共排行榜,而166个问题及答案被用于开发集。

“解决GAIA的挑战将标志着人工智能研究的一个重要里程碑,”Meta AI的首席作者Grégoire Mialon表示。“我们相信,克服GAIA提出的挑战是推动下一代人工智能系统发展的关键一步。”

人类与AI的表现差距

目前,最高的GAIA得分由手动选择插件的GPT-4保持,准确率为30%。基准创建者表示,能够解决GAIA的人工智能在合理时间框架内可以被视为具有人工通用智能(AGI)的能力。

“论文批评了用复杂的数学、科学和法律考试来测试人工智能的趋势,指出对人类构成挑战的任务并不一定对现代系统而言困难,”作者们解释道。

GAIA强调实际问题,如“根据官方网站,哪座城市举办了2022年欧歌赛?”以及“最新2022年乐高维基百科文章中列出了多少张图片?”

“我们认为,AGI的发展依赖于系统在此类日常问题上展示与普通人相似的能力,”研究人员表示。

GAIA对AI发展的潜在影响

GAIA的引入标志着人工智能研究的一次重大转变,可能带来深远的影响。通过强调在日常任务中类人能力,而不仅仅是专业知识,GAIA推动了当前人工智能基准的界限。

如果未来的人工智能系统能够根据GAIA展示常识、适应性和推理能力,那么它们可能会实现实用的AGI,这将推动AI助手、服务和产品的提升。

然而,研究人员警告说,当前的聊天机器人在解决GAIA上仍面临相当大的挑战,反映了在推理、工具使用和管理多样化现实场景方面的现有局限。

随着研究人员不断应对GAIA挑战,他们的发现将为创造更具能力、多功能和可信赖的人工智能系统提供重要进展。此外,像GAIA这样的基准也促进了对如何塑造人工智能以优先考虑人类价值观(如同情心、创造力和道德决策)的深思。

对于感兴趣的人,GAIA基准排行榜提供了关于目前哪个下一代语言模型在这一评估中表现优秀的洞见。

Most people like

Find AI tools in YBX