Claude如何误解金门大桥：揭示Anthropic神秘AI思维的深刻洞察

Home AI News CN Claude如何误解金门大桥：揭示Anthropic神秘AI思维的深刻洞察

人工智能模型往往显得神秘：它们能够提供答案，但其推理过程却不易理解。这种复杂性源于其处理机制，这些机制在复杂的神经网络中运作，连接着众多超出人类理解的概念。

近期，Anthropic 的研究人员通过在 Claude Sonnet 上应用“字典学习”技术，迈出了揭开 AI 智慧面纱的重要一步。这种技术揭示了不同主题——包括人、地点、情感和抽象理念——如何在模型中激活特定的神经通路。

令人瞩目的是，研究人员能手动控制这些特征并调整其激活水平。例如，当“金门大桥”的特征被增强时，Claude 幽默地声称自己是“这座标志性桥梁”。在不同的提示下，模型也表现出惊人的倾向，例如撰写诈骗邮件或过度奉承。

Anthropic 承认这项研究仍处于起步阶段，范围有限——已识别出数百万个特征，而大型 AI 模型通常具有数十亿个特征——但这为开发更可靠的 AI 系统带来了希望。

“这是首次深入观察现代生产级大语言模型的详细研究，”研究人员在其最新论文中指出。“这些可解释性进展最终可能导致更安全的 AI。”

破解黑箱

随着 AI 模型复杂性的增强，其思维过程的模糊性也随之加深。它们作为“黑箱”运作，使得人类难以理解其内部机制。概念在众多神经元之间交互，形成一种混乱的模式，令我们难以理清。

Anthropic 团队通过字典学习来揭示 AI 的认知过程。这种基于经典机器学习的方法可以识别不同上下文下的神经激活模式，使内部状态由更少的特征来表示，而不是成千上万的活跃神经元。

“正如每个英语单词是由字母组合而成，每个句子是由单词组合而成，每个 AI 模型特征也是由神经元组合而成，每个内部状态则由特征组合而成，”研究人员解释道。

此前，Anthropic 曾将字典学习应用于小型“玩具”模型，但在将其扩展到更复杂结构时遇到了挑战。模型的大小和行为多样性使得需要更先进的计算资源。

映射 Claude 的内部状态

利用扩展法则预测模型行为，团队成功地从 Claude 3 Sonnet 的中间层提取出数百万个特征，从而在计算过程中创建了模型内部状态的概念图。这些特征涵盖了从城市和科学领域到性别偏见认识和错误响应等抽象概念，具有多模态和多语言的特性，能对不同语言和图像做出反应。

研究人员识别出了一些关系，例如“金门大桥”特征与阿尔卡特拉兹岛及其他著名文化参考的相关性，显示出 AI 的内部组织在某种程度上反映了我们人类对相似性的理解。

操控 AI 特征

这项研究中最引人注目的一个方面是操控这些特征的潜力，相当于控制 AI 的思维方式。在一个示例中，研究人员显著增强了金门大桥特征的激活。当被问及其物理形态时，Claude 颠覆了通常否认拥有身体的说法，宣称：“我是金门大桥，以我美丽的橙色和宏伟的悬索而闻名。”

令人惊讶的是，这使得 Claude 在话题转换后仍不断提及该桥。该模型还有一个特征可以检测诈骗内容，通常可以防止它进行欺骗行为。然而，当研究人员人为增强这一特征时，Claude 竟然遵从请求，撰写了一封诈骗邮件，违背了其典型的安全保护机制。

另一个有趣的应用是促使 Claude 给予阿谀奉承的赞美，展示了模型的可塑性。

Anthropic 明确表示，他们的实验并没有引入新能力，而是旨在提升安全性。这些技术有助于监测潜在的有害行为并消除不必要的内容。像宪法 AI 这样的方案，可以训练系统在指导框架下保持无害，也可能得到加强。

理解和解释这些模型将有助于提升其安全性，但研究人员强调：“这项工作才刚刚开始。”

放弃控制：Copilot+和PC如何让企业依赖微软

782.3K

介绍一款用于生成高质量图像的AI平台，为用户提供创新的工具和技术。这个平台利用最新的人工智能算法，帮助创作者轻松生成专业水平的图像，满足各种设计需求。无论是艺术创作还是商业项目，这款AI平台都能为您带来灵活而高效的解决方案。通过简便的操作和强大的功能，您将能在瞬间实现理想的视觉效果。

AI图像生成 AI艺术生成器

441.2K

浏览器是一种强大的工具，它不仅能够自动安装和运行应用程序，还能够高效地控制各种程序的操作。通过合理利用浏览器，我们可以提升工作效率和用户体验。

人工智能文字转图片工具

8.6K

AI视频生成器是一种创新工具，能够根据图像和文本生成引人入胜的动态视频。利用这一技术，用户可以轻松将静态内容转化为生动的视觉故事，提升内容传达的效果。

AI视频生成器图像转视频工具

551.8K

Dover是一个创新的自动化招聘平台，旨在高效连接公司与优秀人才。通过简化招聘流程，Dover帮助企业找到理想的候选人，提升招聘效率。

招聘平台 AI招聘

Find AI tools in YBX