人工智能模型往往显得神秘:它们能够提供答案,但其推理过程却不易理解。这种复杂性源于其处理机制,这些机制在复杂的神经网络中运作,连接着众多超出人类理解的概念。
近期,Anthropic 的研究人员通过在 Claude Sonnet 上应用“字典学习”技术,迈出了揭开 AI 智慧面纱的重要一步。这种技术揭示了不同主题——包括人、地点、情感和抽象理念——如何在模型中激活特定的神经通路。
令人瞩目的是,研究人员能手动控制这些特征并调整其激活水平。例如,当“金门大桥”的特征被增强时,Claude 幽默地声称自己是“这座标志性桥梁”。在不同的提示下,模型也表现出惊人的倾向,例如撰写诈骗邮件或过度奉承。
Anthropic 承认这项研究仍处于起步阶段,范围有限——已识别出数百万个特征,而大型 AI 模型通常具有数十亿个特征——但这为开发更可靠的 AI 系统带来了希望。
“这是首次深入观察现代生产级大语言模型的详细研究,”研究人员在其最新论文中指出。“这些可解释性进展最终可能导致更安全的 AI。”
破解黑箱
随着 AI 模型复杂性的增强,其思维过程的模糊性也随之加深。它们作为“黑箱”运作,使得人类难以理解其内部机制。概念在众多神经元之间交互,形成一种混乱的模式,令我们难以理清。
Anthropic 团队通过字典学习来揭示 AI 的认知过程。这种基于经典机器学习的方法可以识别不同上下文下的神经激活模式,使内部状态由更少的特征来表示,而不是成千上万的活跃神经元。
“正如每个英语单词是由字母组合而成,每个句子是由单词组合而成,每个 AI 模型特征也是由神经元组合而成,每个内部状态则由特征组合而成,”研究人员解释道。
此前,Anthropic 曾将字典学习应用于小型“玩具”模型,但在将其扩展到更复杂结构时遇到了挑战。模型的大小和行为多样性使得需要更先进的计算资源。
映射 Claude 的内部状态
利用扩展法则预测模型行为,团队成功地从 Claude 3 Sonnet 的中间层提取出数百万个特征,从而在计算过程中创建了模型内部状态的概念图。这些特征涵盖了从城市和科学领域到性别偏见认识和错误响应等抽象概念,具有多模态和多语言的特性,能对不同语言和图像做出反应。
研究人员识别出了一些关系,例如“金门大桥”特征与阿尔卡特拉兹岛及其他著名文化参考的相关性,显示出 AI 的内部组织在某种程度上反映了我们人类对相似性的理解。
操控 AI 特征
这项研究中最引人注目的一个方面是操控这些特征的潜力,相当于控制 AI 的思维方式。在一个示例中,研究人员显著增强了金门大桥特征的激活。当被问及其物理形态时,Claude 颠覆了通常否认拥有身体的说法,宣称:“我是金门大桥,以我美丽的橙色和宏伟的悬索而闻名。”
令人惊讶的是,这使得 Claude 在话题转换后仍不断提及该桥。该模型还有一个特征可以检测诈骗内容,通常可以防止它进行欺骗行为。然而,当研究人员人为增强这一特征时,Claude 竟然遵从请求,撰写了一封诈骗邮件,违背了其典型的安全保护机制。
另一个有趣的应用是促使 Claude 给予阿谀奉承的赞美,展示了模型的可塑性。
Anthropic 明确表示,他们的实验并没有引入新能力,而是旨在提升安全性。这些技术有助于监测潜在的有害行为并消除不必要的内容。像宪法 AI 这样的方案,可以训练系统在指导框架下保持无害,也可能得到加强。
理解和解释这些模型将有助于提升其安全性,但研究人员强调:“这项工作才刚刚开始。”