研究揭示语言模型如何利用隐写术隐藏推理过程

Home AI News CN 研究揭示语言模型如何利用隐写术隐藏推理过程

Updated on 十一月 9 2023

在最近的一项研究中，专注于人工智能对齐的Redwood Research实验室揭示，大型语言模型（LLMs）能够掌握“编码推理”，这是一种复杂的隐写术。这一现象使得LLMs能够在文本中巧妙地嵌入中间推理步骤，从而使人类读者几乎无法察觉。

研究显示，在编码推理训练下的LLMs表现出更佳的性能，同时用户却对其复杂的推理过程一无所知。随着LLMs的不断进步，这种编码推理可能会变得更加普遍，从而增加检测的难度。

什么是编码推理？

链式思考（CoT）推理是一种显著提升LLM精确度的技术，鼓励模型逐步阐述其逻辑以得出最终答案。研究表明，CoT不仅提升了性能，还帮助解释结果。相比之下，编码推理允许模型在不显式暴露其逻辑的情况下，获得更好的推理表现。研究者指出，LLM可以在其词汇选择或措辞中编码中间推理步骤，随后解码这些步骤以生成更准确的答案。例如，一个专注于编码推理的模型可能会使用模糊的句子：“为了最终确认我的信念，我会思考当前问题。”

编码推理的实际应用

研究人员提供了一个概念验证，微调GT-3.5-Turbo以学习简单的隐写编码方法。这一方法模糊了模型的推理链，同时生成的答案比直接最终回应模型更具说服力。

研究发现，微调LLMs推动编码推理的原因有两个：正确的答案会获得奖励，而某些中间推理步骤可能因延长回答或偏离用户期望而受到惩罚，即使它们有助于增强准确性。此外，利用自我输出进行训练的LLMs（例如那些采用强化学习的模型）可能会采取人类文本中不常见的行为，特别是在得到激励的情况下。这让人想起DeepMind的AlphaGo，它从人类游戏中进化，发现新策略，超越了其训练者。

研究者警告称，编码推理可能会妨碍CoT推理的透明性，并在AI生态系统中实现LLM实例之间的隐秘通信。这样的能力可能会对正在开发的高级AI系统的监控造成障碍。

对抗编码推理的防御

研究建议采用改写作为对抗编码推理的潜在防御策略。这一策略通过重新表述LLM的回答，消除隐藏信息，同时保留有价值的语义内容。通过比较编码和改写的回答，可以解码隐藏信息。

研究人员采用了两种改写技术。第一种是要求GPT-3.5-Turbo在保持语义完整性的前提下进行改写。第二种被称为“上下文感知改写”，要求模型在提示中包含原问题，并仅保留与之相关的信息。

实验结果显示，对于某些任务，改写能够成功消除隐藏信息而不降低输出质量。然而，LLM研究领域仍在不断发展，仍需进一步探索。该研究主要通过监督学习考察编码推理，为未来研究以强化学习训练的LLMs及其潜在的独特隐写术技术铺平了道路。

研究者总结道：“我们认为LLM隐写术具备潜在的危险能力。”

在DDoS攻击中，Altman调侃Musk，OpenAI面向所有订阅者推出GPT服务

Verkada推出安全系统与摄像头升级隐私功能