迈向通用人工智能：DeepMind对我们当前进展的深刻见解

Home AI News CN 迈向通用人工智能：DeepMind对我们当前进展的深刻见解

Updated on 十一月 16 2023

实现通用人工智能（AGI）的追求——具备人类水平能力的人工智能系统——在科学界引发了热烈的讨论。专家们的观点差异明显，有些人认为AGI尚远，另一些则预测其将在十年内出现。值得注意的是，有人认为目前的大型语言模型（LLMs）已经显示出AGI的“火花”。

为澄清这一议题，谷歌DeepMind团队在首席AGI科学家 Shane Legg 的带领下，引入了一个新框架，旨在对AGI系统及其前身的能力和行为进行分类。

AGI的定义

开发AGI的一大挑战是明确其定义。DeepMind的研究人员评估了九种定义，包括图灵测试、咖啡测试、意识评估、经济指标和任务相关基准。他们强调了每种定义在全面把握AGI本质方面的局限性。

例如，尽管LLMs可以通过图灵测试，仅仅生成令人信服的文本并不足以让它们被认定为AGI，这点在当前模型的局限性中得到了体现。此外，将意识归因于机器依然是模糊的追求。未能通过特定测试（如在陌生厨房中准备咖啡）表明不是AGI，但仅通过任务并无法确认其为AGI。

为了更深入地理解AGI，研究人员提出了评估人工智能的六个标准：

1. 关注能力：AGI的评估应优先考虑能力，而非模糊的特质，如人类理解或意识。

2. 通用性和表现：评估必须兼顾AI可执行的任务范围和其表现水平。

3. 认知需求：AGI应涉及认知和元认知任务，而并非必需体现在物理形态上。

4. 任务潜力：能够执行AGI级别的任务即可，即使系统目前不可部署。要求实际部署会带来伦理和法律等非技术性挑战。

5. 生态有效性：AGI指标应强调对社会有价值的现实任务。

6. 路径模型：AGI并非单一的终点，它代表着一个不同智能级别的连续体。

智能谱系

DeepMind创建了一个矩阵，用于评估从没有AI到超人类AGI五个层级的“表现”和“通用性”。“表现”反映了AI能力与人类技能的对比，而“通用性”则衡量AI能有效处理的任务广度。

该矩阵区分了狭义AI与通用AI。例如，AlphaZero和AlphaFold等超人类狭义AI系统在特定任务上表现优异；而诸如ChatGPT、Bard和Llama 2等高级语言模型在特定任务（如写作文）上属于“合格”级别（第2级），但在数学与推理等领域则仍被视为“新兴”级别（第1级）。

研究人员指出，当前的高级语言模型仅能归类为第1级通用AI（“新兴AGI”），直到它们在更广泛的任务上展示出更高的表现。他们还警告称，理论分类可能与现实表现不一致。例如，文本到图像系统可能生成比艺术家更高质量的图像，但由于偶尔出现的错误，可能仍未达到“艺术大师”的标准。

DeepMind倡导建立AGI基准，涵盖语言技能、推理能力和创造力等一系列认知和元认知任务。他们意识到定义每一个被充分一般智能所能想象的任务的挑战，建议AGI基准应为动态框架，随新任务的出现而调整。

自主性与风险评估

DeepMind还引入了一个用于评估AI系统自主性及相关风险的矩阵。这个矩阵从第0级（人类执行所有任务）到第5级（完全自主）不同层次，囊括了人类与AI共享责任的等级。

随着自主性的提升，AI系统带来的风险也在演变。在较低级别，自主性可能导致工人技能下降和行业扰动；而较高自主级别则可能引发更严重的担忧，例如通过个性化内容进行个体针对性操控，以及在完全自主代理中的伦理失调。

尽管DeepMind的框架可能存在局限性和批评，但它为衡量开发出有望超越人类能力的AI系统的进展提供了重要指导。

20.4K

全球致力于安全人工智能开发的非营利机构

人工智能治理其他

13.2K

通过AI技术驱动的社交媒体内容生成与调度平台，提升品牌影响力和用户参与度。

人工智能 AI社交媒体助手

70.4K

轻松将文本转换为流程图，是一种高效的可视化工具，不仅能帮助您理清思路，还能提升信息传递的效果。无论是在工作中梳理复杂项目，还是在学习中总结知识要点，流程图都能让您的想法以更直观的方式呈现。通过简单的步骤，您可以将冗长的文字转化为生动的图形，使沟通变得更加明确和易于理解。

流程图 AI图表生成器

25.8K

将你的设计转化为现实网站，实现创意与技术的完美结合。

网站建设者 AI网站构建器

Find AI tools in YBX