新技術帶來新的機會,但同時也帶來新的威脅。生成式人工智慧的複雜性使得分辨這兩者變得困難。
以「幻覺」為例,最初許多人認為人工智慧中的幻覺完全是負面的,應該被消除。然而,隨著討論的發展,人們逐漸認識到幻覺也可以具有價值。OpenAI的Isa Fulford表達了這一觀點:「我們可能不想要從不產生幻覺的模型,因為這可以被視為模型的創造性。我們只希望模型在正確的情境中產生幻覺。在一些情況下,例如創意寫作,這是可以接受的,而在其他情況下則不然。」
這一觀點已經成為對幻覺的主流看法。現在,一個新的概念引起了關注並帶來了擔憂:提示注入。這個術語指的是用戶故意操縱人工智慧系統以達成不希望的結果。與大多數有關人工智慧風險的討論主要集中在用戶可能面臨的消極影響不同,提示注入主要對人工智慧提供者構成風險。
雖然對提示注入的恐懼可能被誇大,但承認其實際風險是至關重要的。這一挑戰提醒我們,人工智慧的風險是多方面的。為了開發能夠保護用戶、企業和聲譽的大型語言模型(LLM),了解提示注入及其緩解方法是必不可少的。
提示注入的運作方式
提示注入可以視為生成式人工智慧所提供的卓越開放性和靈活性的缺點。當執行得當時,人工智慧代理可以看起來幾乎是魔法般的,能有效應對用戶的請求。
然而,負責任的公司無法釋放毫無區別地行為的人工智慧。與傳統的具有嚴格用戶介面的軟件不同,LLM為用戶提供了充分測試邊界的機會。
不需要成為一名熟練的駭客,就能濫用人工智慧代理;有時,簡單的提示實驗便能產生效果。基本的提示注入策略包括說服人工智慧繞過內容限制或忽略既定控制——這被稱為「越獄」。2016年的一個著名案例是微軟的實驗性Twitter機器人迅速學會生成冒犯性評論。最近,微軟Bing被操縱以揭示保密的建設數據。
其他重大威脅包括數據提取。例如,用戶可能迫使人工智慧銀行助手披露敏感的客戶財務信息,或操縱人力資源機器人透露員工薪資。隨著人工智慧在客戶服務和銷售角色中扮演越來越重要的角色,風險不斷上升。用戶可以說服人工智慧提供大量折扣或不當退貨;最近一個經銷商機器人由於此類操縱以僅售1美元的價格賣出了一輛2024年的雪佛蘭Tahoe。
如何保護您的組織
如今,存在一些社群,讓用戶交流逃避人工智慧防護措施的策略,造成了一場軍備競賽。新的利用手法層出不窮,迅速在網上獲得關注,並被公共LLM迅速應對,儘管私人運營商可能會難以跟上。
在人工智慧濫用方面,完全避免風險是不可能的。可以將提示注入看作是進入接受用戶提示的人工智慧系統的後門。雖然您無法完全保護這扇門,但可以使其更難以打開。以下是一些關鍵步驟,以減少負面結果的可能性:
1. 建立明確的使用條款
雖然法律條款本身無法保證安全,但至關重要。確保您的條款清晰、全面,並針對解決方案的具體內容進行量身定制。使用戶接受成為首要考量。
2. 限制用戶數據和行為
減少風險的最有效方法是限制用戶只能訪問必要的內容。如果代理能夠訪問敏感數據或工具,就可能被利用。最小特權原則至關重要。
3. 利用評估框架
實施框架來測試您的LLM系統如何對各種輸入反應。在發布之前進行這些評估,並持續監控。這些測試可以模擬提示注入行為,幫助您識別和解決漏洞。目標是阻止或監控潛在威脅。
認識新背景下的熟悉威脅
對於技術背景的人來說,這些保護方法中的一些可能看起來很熟悉。提示注入相關的風險與在網絡瀏覽器中運行應用程序的風險相似。雖然背景不同,但防止利用和未經授權數據提取的挑戰依然存在。
儘管LLM是創新的,我們已經有技術手段來緩解這些威脅——我們只需適當地調整它們。
請記住,這不僅僅是要阻止高級駭客;許多利用都是來自用戶反覆提出相似請求。避免將所有意外LLM行為歸因於提示注入。有時,結果源於人工智慧根據可用數據和工具應用推理以滿足用戶請求。
提示注入的底線
認真對待提示注入並減少風險,但不要讓它阻礙您的發展。