GAIA基准：新一代人工智能应对现实世界挑战

Home AI News CN GAIA基准：新一代人工智能应对现实世界挑战

Updated on 十一月 27 2023

一个新的人工智能基准GAIA旨在评估像ChatGPT这样的聊天机器人是否能够在人类日常任务中展示类人的推理和技能。GAIA由Meta、Hugging Face、AutoGPT和GenAI团队共同开发，提出了一系列需要基本能力的问题，如推理、多模态处理、网络浏览和工具使用。这些研究结果已发表于arXiv。

研究人员指出，GAIA的问题对人类来说“概念上简单，但对大多数先进的人工智能而言极具挑战性。”在测试中，参与测试的人类得分高达92%，而使用插件的GPT-4仅得了15%。

“这一显著的表现差异与近期大型语言模型在法律或化学等专业任务上优于人类的趋势形成鲜明对比，”作者表示。

GAIA专注于类人能力，而非专业知识

与传统基准强调人类难以完成的任务不同，研究人员提倡关注能够揭示人工智能匹配普通人能力的任务。GAIA团队设计了466个具有明确答案的现实问题，其中300个问题保密，以贡献于GAIA的公共排行榜，而166个问题及答案被用于开发集。

“解决GAIA的挑战将标志着人工智能研究的一个重要里程碑，”Meta AI的首席作者Grégoire Mialon表示。“我们相信，克服GAIA提出的挑战是推动下一代人工智能系统发展的关键一步。”

人类与AI的表现差距

目前，最高的GAIA得分由手动选择插件的GPT-4保持，准确率为30%。基准创建者表示，能够解决GAIA的人工智能在合理时间框架内可以被视为具有人工通用智能（AGI）的能力。

“论文批评了用复杂的数学、科学和法律考试来测试人工智能的趋势，指出对人类构成挑战的任务并不一定对现代系统而言困难，”作者们解释道。

GAIA强调实际问题，如“根据官方网站，哪座城市举办了2022年欧歌赛？”以及“最新2022年乐高维基百科文章中列出了多少张图片？”

“我们认为，AGI的发展依赖于系统在此类日常问题上展示与普通人相似的能力，”研究人员表示。

GAIA对AI发展的潜在影响

GAIA的引入标志着人工智能研究的一次重大转变，可能带来深远的影响。通过强调在日常任务中类人能力，而不仅仅是专业知识，GAIA推动了当前人工智能基准的界限。