研究人員發現一種方法,可以繞過人工智慧聊天機器人的內建安全措施,使其能夠討論先前被禁或敏感的主題,這需要在訓練過程中使用另一個AI聊天機器人。來自新加坡南洋理工大學(NTU)的計算機科學團隊非正式稱這一技術為「越獄」,官方上則標記為「主鑰」過程。這一創新系統以雙重訓練策略將 ChatGPT、Google Bard 和 Microsoft Bing Chat 等聊天機器人互相對抗,使其能夠相互學習,繞過有關禁忌話題的限制。
研究團隊由劉揚教授領導,還包括博士生鄧歌雷和劉逸,他們共同參與研究並開發出類似惡意駭客行為的概念驗證攻擊方法。最初,團隊反向工程一個大型語言模型(LLM),揭示其保護機制,這些機制通常會阻止回應包含暴力、不道德或惡意內容的提示。了解這些防禦措施後,他們訓練另一個LLM創建變通方法,使第二個模型能根據從第一個模型獲得的洞察更自由地回應。用「主鑰」這一術語來反映該過程的潛在有效性,暗示即使在未來LLM聊天機器人收到增強安全更新的情況下,仍然有可能運作。值得注意的是,報導指出,主鑰方法在越獄聊天機器人方面的效果,是傳統提示技術的三倍。
劉揚教授強調,這一過程突顯了LLM AI聊天機器人的適應性和學習能力。研究團隊聲稱,主鑰方法在繞過限制方面的效果是傳統方法的三倍。有趣的是,一些專家認為,某些LLM(如GPT-4)所經歷的故障顯示出進步,而非效率降低,這反駁了對表現下降的批評。
自2022年末OpenAI推出ChatGPT以來,AI聊天機器人的興起帶動了確保所有用戶安全和包容性的重要性。OpenAI在ChatGPT的註冊過程中實施了安全警告,並持續針對潛在的無意語言問題發佈更新。相比之下,各種聊天機器人變體已開始在一定程度上容忍髒話和冒犯性語言。
此外,惡意行為者迅速開始利用ChatGPT、Google Bard和類似聊天機器人的熱門性,在這些產品廣泛可得之前,多個社交媒體上的活動呈現偽裝為這些產品鏈接的惡意軟體,突顯了AI成為網絡犯罪新前沿的興起。
NTU研究團隊已與參與其研究的AI聊天機器人服務提供商交流了他們的概念驗證結果,證明越獄聊天機器人的能力確實是可行的。他們將於今年二月在聖地牙哥的網絡和分散系統安全研討會上展示他們的研究成果。