迈向通用人工智能:DeepMind对我们当前进展的深刻见解

实现通用人工智能(AGI)的追求——具备人类水平能力的人工智能系统——在科学界引发了热烈的讨论。专家们的观点差异明显,有些人认为AGI尚远,另一些则预测其将在十年内出现。值得注意的是,有人认为目前的大型语言模型(LLMs)已经显示出AGI的“火花”。

为澄清这一议题,谷歌DeepMind团队在首席AGI科学家 Shane Legg 的带领下,引入了一个新框架,旨在对AGI系统及其前身的能力和行为进行分类。

AGI的定义

开发AGI的一大挑战是明确其定义。DeepMind的研究人员评估了九种定义,包括图灵测试、咖啡测试、意识评估、经济指标和任务相关基准。他们强调了每种定义在全面把握AGI本质方面的局限性。

例如,尽管LLMs可以通过图灵测试,仅仅生成令人信服的文本并不足以让它们被认定为AGI,这点在当前模型的局限性中得到了体现。此外,将意识归因于机器依然是模糊的追求。未能通过特定测试(如在陌生厨房中准备咖啡)表明不是AGI,但仅通过任务并无法确认其为AGI。

为了更深入地理解AGI,研究人员提出了评估人工智能的六个标准:

1. 关注能力:AGI的评估应优先考虑能力,而非模糊的特质,如人类理解或意识。

2. 通用性和表现:评估必须兼顾AI可执行的任务范围和其表现水平。

3. 认知需求:AGI应涉及认知和元认知任务,而并非必需体现在物理形态上。

4. 任务潜力:能够执行AGI级别的任务即可,即使系统目前不可部署。要求实际部署会带来伦理和法律等非技术性挑战。

5. 生态有效性:AGI指标应强调对社会有价值的现实任务。

6. 路径模型:AGI并非单一的终点,它代表着一个不同智能级别的连续体。

智能谱系

DeepMind创建了一个矩阵,用于评估从没有AI到超人类AGI五个层级的“表现”和“通用性”。“表现”反映了AI能力与人类技能的对比,而“通用性”则衡量AI能有效处理的任务广度。

该矩阵区分了狭义AI与通用AI。例如,AlphaZero和AlphaFold等超人类狭义AI系统在特定任务上表现优异;而诸如ChatGPT、Bard和Llama 2等高级语言模型在特定任务(如写作文)上属于“合格”级别(第2级),但在数学与推理等领域则仍被视为“新兴”级别(第1级)。

研究人员指出,当前的高级语言模型仅能归类为第1级通用AI(“新兴AGI”),直到它们在更广泛的任务上展示出更高的表现。他们还警告称,理论分类可能与现实表现不一致。例如,文本到图像系统可能生成比艺术家更高质量的图像,但由于偶尔出现的错误,可能仍未达到“艺术大师”的标准。

DeepMind倡导建立AGI基准,涵盖语言技能、推理能力和创造力等一系列认知和元认知任务。他们意识到定义每一个被充分一般智能所能想象的任务的挑战,建议AGI基准应为动态框架,随新任务的出现而调整。

自主性与风险评估

DeepMind还引入了一个用于评估AI系统自主性及相关风险的矩阵。这个矩阵从第0级(人类执行所有任务)到第5级(完全自主)不同层次,囊括了人类与AI共享责任的等级。

随着自主性的提升,AI系统带来的风险也在演变。在较低级别,自主性可能导致工人技能下降和行业扰动;而较高自主级别则可能引发更严重的担忧,例如通过个性化内容进行个体针对性操控,以及在完全自主代理中的伦理失调。

尽管DeepMind的框架可能存在局限性和批评,但它为衡量开发出有望超越人类能力的AI系统的进展提供了重要指导。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles