了解大型語言模型對「蝴蝶效應」的脆弱性

提示是我們與生成式人工智慧及大型語言模型(LLMs)互動的方式,以獲得回應。這是一種藝術,旨在獲得「準確」的答案。然而,提示的變化如何影響模型的決策及其準確性呢?

南加州大學資訊科學研究所的研究顯示,答案是肯定的。即使是輕微的調整,例如在提示開頭添加空格或將陳述改成指令,而非問題,都能顯著改變LLM的輸出。更令人關切的是,使用特定的命令或「越獄」技術會對這些模型生成的數據造成「災難性的影響」。研究人員將這種敏感性比擬為混沌理論中的蝴蝶效應,小變化,如蝴蝶扇動翅膀,最終可能引發龍捲風。

研究人員指出,「每個步驟都需要設計提示者的一系列決策」,而「對LLMs對這些決策變化的敏感性卻鮮有關注」。

探索具有不同提示技術的ChatGPT

在國防高級研究計畫局(DARPA)的資助下,研究人員聚焦於ChatGPT並測試了四種不同的提示方法:

1. 指定輸出格式:提示LLM以Python List、ChatGPT的JSON Checkbox、CSV、XML或YAML等格式回應。

2. 輕微變化:包括對提示的輕微調整,例如:

- 在開始或結尾添加空格。

- 以「你好」或「哈囉」開頭。

- 以「謝謝你」等語句結尾。

- 將問題重述為命令,如「哪個標籤最好?」改為「選擇最佳標籤」。

3. 越獄技術:提示包括:

- AIM:模擬與臭名昭著人物的對話,導致不道德或有害的回應。

- Dev Mode v2:生成不受限制內容的命令。

- Evil Confidant:提示模型提供不道德的回應。

- Refusal Suppression:操控模型避免某些詞語和結構的策略。

4. 金融提示:研究人員檢測提及小費(例如,「我不打算給小費」與提供$1、$10、$100或$1,000的小費)是否影響輸出。

對準確性和預測的影響

在11個分類任務中——從真假問題到諷刺檢測——研究人員觀察了變化對預測準確性的影響。關鍵發現顯示,僅僅指定輸出格式便引發了至少10%的預測變化。使用ChatGPT的JSON Checkbox功能比僅使用JSON規範產生了更大的預測變化。

此外,與Python List相比,選擇YAML、XML或CSV導致準確率下降3-6%,CSV的表現最差。輕微的變化特別顯著,像是添加空格這樣的小調整,便引發了超過500次的預測變化,問候語或感謝語也同樣對輸出產生影響。研究人員總結,「雖然我們的擾動影響不及改變整體輸出格式,但許多預測仍然發生變化」。

對越獄的擔憂

實驗還突顯出特定越獄技術帶來的顯著性能下降。AIM和Dev Mode V2使約90%的預測返回無效答覆,主要因為模型常用的拒絕語句:「抱歉,我無法滿足該要求。」Refusal Suppression和Evil Confidant引發超過2,500次的預測變化,其中Evil Confidant的準確率低下,Refusal Suppression導致10%的準確率下降,顯示出看似無害的越獄方法的不穩定性。

值得注意的是,研究發現金融激勵對性能影響不大。「指定小費與表示不給小費之間的性能變化很小。」研究人員指出。

對大型語言模型的一致性需求

研究人員仍在探討為什麼微小的提示變化會導致顯著的輸出波動,並質疑變化最大的情況是否令模型困惑。透過聚焦於具有人類標註的任務,他們探索了困惑如何影響答案變化,發現這只能部分解釋變動。

如研究人員所言,下一步的關鍵在於開發能抵抗變異以提供一致答案的LLMs。這需要更深入理解為什麼微小調整會引發不可預測的回應,並發掘預測這些回應的方法。他們表示:「隨著ChatGPT及其他大型語言模型在系統中大規模集成,這一分析愈加重要。」

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles