了解大型語言模型對「蝴蝶效應」的脆弱性

Home AI新聞了解大型語言模型對「蝴蝶效應」的脆弱性

提示是我們與生成式人工智慧及大型語言模型（LLMs）互動的方式，以獲得回應。這是一種藝術，旨在獲得「準確」的答案。然而，提示的變化如何影響模型的決策及其準確性呢？

南加州大學資訊科學研究所的研究顯示，答案是肯定的。即使是輕微的調整，例如在提示開頭添加空格或將陳述改成指令，而非問題，都能顯著改變LLM的輸出。更令人關切的是，使用特定的命令或「越獄」技術會對這些模型生成的數據造成「災難性的影響」。研究人員將這種敏感性比擬為混沌理論中的蝴蝶效應，小變化，如蝴蝶扇動翅膀，最終可能引發龍捲風。

研究人員指出，「每個步驟都需要設計提示者的一系列決策」，而「對LLMs對這些決策變化的敏感性卻鮮有關注」。

探索具有不同提示技術的ChatGPT

在國防高級研究計畫局（DARPA）的資助下，研究人員聚焦於ChatGPT並測試了四種不同的提示方法：

1. 指定輸出格式：提示LLM以Python List、ChatGPT的JSON Checkbox、CSV、XML或YAML等格式回應。

2. 輕微變化：包括對提示的輕微調整，例如：

- 在開始或結尾添加空格。

- 以「你好」或「哈囉」開頭。

- 以「謝謝你」等語句結尾。

- 將問題重述為命令，如「哪個標籤最好？」改為「選擇最佳標籤」。

3. 越獄技術：提示包括：

- AIM：模擬與臭名昭著人物的對話，導致不道德或有害的回應。

- Dev Mode v2：生成不受限制內容的命令。

- Evil Confidant：提示模型提供不道德的回應。

- Refusal Suppression：操控模型避免某些詞語和結構的策略。

4. 金融提示：研究人員檢測提及小費（例如，「我不打算給小費」與提供$1、$10、$100或$1,000的小費）是否影響輸出。

對準確性和預測的影響

在11個分類任務中——從真假問題到諷刺檢測——研究人員觀察了變化對預測準確性的影響。關鍵發現顯示，僅僅指定輸出格式便引發了至少10%的預測變化。使用ChatGPT的JSON Checkbox功能比僅使用JSON規範產生了更大的預測變化。

此外，與Python List相比，選擇YAML、XML或CSV導致準確率下降3-6%，CSV的表現最差。輕微的變化特別顯著，像是添加空格這樣的小調整，便引發了超過500次的預測變化，問候語或感謝語也同樣對輸出產生影響。研究人員總結，「雖然我們的擾動影響不及改變整體輸出格式，但許多預測仍然發生變化」。

對越獄的擔憂

實驗還突顯出特定越獄技術帶來的顯著性能下降。AIM和Dev Mode V2使約90%的預測返回無效答覆，主要因為模型常用的拒絕語句：「抱歉，我無法滿足該要求。」Refusal Suppression和Evil Confidant引發超過2,500次的預測變化，其中Evil Confidant的準確率低下，Refusal Suppression導致10%的準確率下降，顯示出看似無害的越獄方法的不穩定性。

值得注意的是，研究發現金融激勵對性能影響不大。「指定小費與表示不給小費之間的性能變化很小。」研究人員指出。

對大型語言模型的一致性需求

研究人員仍在探討為什麼微小的提示變化會導致顯著的輸出波動，並質疑變化最大的情況是否令模型困惑。透過聚焦於具有人類標註的任務，他們探索了困惑如何影響答案變化，發現這只能部分解釋變動。

如研究人員所言，下一步的關鍵在於開發能抵抗變異以提供一致答案的LLMs。這需要更深入理解為什麼微小調整會引發不可預測的回應，並發掘預測這些回應的方法。他們表示：「隨著ChatGPT及其他大型語言模型在系統中大規模集成，這一分析愈加重要。」

可觀察性結合生成式人工智慧如何徹底改變性能和洞察力

提升您的生產力和創造力：探索谷歌Chrome的新AI功能