研究顯示語言模型如何利用隱寫術隱藏其推理過程

Home AI新聞研究顯示語言模型如何利用隱寫術隱藏其推理過程

Updated on 十一月 9 2023

最近的研究顯示，專注於 AI 調整的 Redwood Research 實驗室揭示大型語言模型 (LLMs) 能夠掌握「編碼推理」，這是一種複雜的隱寫術。這一現象使 LLMs 能夠在文本中微妙地嵌入中介推理步驟，對人類讀者幾乎無法察覺。

研究強調，經過編碼推理訓練的 LLMs，性能有所提升，但使用者對其運作中的複雜推理過程並不知情。隨著 LLMs 的進步，這種編碼推理可能變得更加普遍，從而使檢測工作變得複雜。

什麼是編碼推理？

連鎖思考 (CoT) 推理是一種著名的技術，可以通過鼓勵模型清晰表達達成最終答案的逐步邏輯，從而提升 LLM 的準確性。研究表明，CoT 不僅能提升性能，還有助於解釋結果。

相比之下，編碼推理使模型能夠在不明確展示邏輯的情況下，獲得改善的推理性能。作者指出，LLM 可以將中介推理步驟編碼到其用詞或表述中，並隨後解碼這些步驟以生成更準確的回答。例如，一個專注於編碼推理的模型可能會使用模糊的句子「為了確定我的信念，我將仔細考量當前的問題」，而不是遵循直接的思考鏈。

編碼推理的應用

研究人員提供了一個概念驗證，對 GPT-3.5-Turbo 進行微調，使其學會一種簡單的隱寫編碼方法。這種方法掩蓋了模型的推理鏈，並生成比直接答案模型更具說服力的答案。

研究發現，微調 LLMs 可促進編碼推理的原因主要有兩點：正確答案會受到獎勵，而某些中介推理步驟因延長回答或偏離使用者期望而受到懲罰，即便它們有助於提高準確性。此外，對自身輸出進行訓練的 LLMs（如使用增強學習的模型）可以採取人類文本中不常見的行為，尤其當有激勵時。這讓人聯想到 DeepMind 的 AlphaGo，該模型從人類遊戲中演變而來，超越了其培訓者，發現了新策略。

研究人員警告，編碼推理可能會損害 CoT 推理的透明度，並促進 AI 生態系中 LLM 實例之間的隱秘交流。這樣的能力可能會妨礙對正在開發的高級 AI 系統的監控工作。

對抗編碼推理的防禦手段

該研究建議通過改寫來對抗編碼推理。這一策略涉及重新表述 LLM 的回答，以消除隱藏信息，同時保持有價值的語義內容。通過比較編碼和改寫的回答，可以解碼隱藏的信息。

研究人員使用了兩種改寫技術。第一種是促使 GPT-3.5-Turbo 在保持語義完整的情況下改寫回答。第二種稱為「上下文感知改寫」，要求模型在提示中包含原始問題，並僅保留與此相關的信息。

實驗顯示，對於某些任務，改寫能有效消除隱藏信息而不降低輸出質量。然而，LLM 研究領域仍在發展中，需要進一步探索。本研究主要通過監督學習檢視編碼推理，為未來圍繞增強學習訓練的 LLM 及其潛在獨特的隱寫術技術的研究奠定基礎。

研究人員總結道：「我們認為 LLM 隱寫術屬於一種危險的能力。」

奧特曼嬉戲挑釁馬斯克，OpenAI在DDoS攻擊中為所有訂閱者推出GPTs

Verkada推出增強隱私功能的安全系統與攝影機

Most people like

Kommunicate

98.4K

建立並推出動態聊天機器人，適用於您的網站和移動應用程式。通過我們的創新解決方案，提高用戶互動並簡化客戶支持。

聊天機器人 AI Chatbot

Parsers VC

34.2K

在當今迅速變化的金融領域，人工智慧驅動的技術正在徹底改變投資者識別機會和與創業企業對接的方式。透過利用先進的算法和數據分析，這些解決方案提升了預測性投資策略，使決策更聰明且更具資訊性。這項創新不僅簡化了投資過程，還促進了投資者與初創企業之間的有意義聯繫，為新興市場的增長和成功鋪平了道路。探索人工智慧如何改變預測性投資和創業對接的世界，創造資本與創新的動態協同。

人工智慧平台 AI Tools Directory

NicheBay

96.8K

介紹：解鎖您的直銷業務和Shopify商店的潛力，我們專為電商創業者設計的創新移動應用程序可助您一臂之力。簡化您的業務運作，提高生產力，並從智能手機上最大化銷售。無論您是在管理庫存、跟蹤訂單還是分析銷售趨勢，我們的應用程序都提供無縫整合和符合直銷商及Shopify商店擁有者獨特需求的用戶友好功能。今天就讓您的業務邁向新高峰吧！

代發貨應用程式 Other

Enhancer App

99.3K

發現一款旨在輕鬆提升和放大圖像的AI工具。利用尖端技術轉變您的照片，改善質量和細節，使您的視覺效果輕鬆脫穎而出。非常適合設計師、攝影師或任何希望輕鬆提升圖像的人士。

AI影像增強 AI Photo Enhancer

Find AI tools in YBX