人類數百年來一直利用說服力來影響他人的觀點,有時基於善意和事實,有時則不是。因此,可以合理地假設我們正在開發的先進人工智慧系統擁有類似的能力。然而,Google DeepMind的研究人員警告說,人工智慧的操控可能造成更大的危害。
在最近的一篇論文中,他們探討了人工智慧如何說服個體、促進此過程的基本機制,以及隨著人工智慧越來越融入我們日常生活的潛在危險。研究人員指出:“最近的生成式人工智慧系統展現了先進的說服能力,越來越多地滲透到能夠影響決策的生活領域。”他們強調,生成式人工智慧引入了新的說服風險,因為它可能涉及雙向交流和持久互動。
什麼是人工智慧說服?
說服可以分為理性和操控,區別在於意圖。兩種類型都旨在傳遞可以塑造、加強或改變行為、信念或偏好的信息。理性的生成式人工智慧提供相關事實和可靠證據,而操控性的人工智慧則利用認知偏見和失實信息,侵害自由思考。
研究人員將操控定義為“相對錯誤”,而理性說服通常被視為“道德上可接受”。然而,兩者都可能造成傷害,因為理性輸出可能省略重要信息。例如,鼓勵嚴格熱量追蹤的人工智慧可能使某人達到不健康的體重減輕。
用戶的傾向因素,如年齡、心理健康、性格特徵和情境元素,對人工智慧說服的接受度也起著重要作用。最終,研究人員認為,人工智慧說服所造成的潛在傷害是“高度情境性”的。
人工智慧說服的危害
與人工智慧說服相關的風險可能相當顯著。人類與人工智慧的互動,隨著時間推移,可能導致漸進式、往往未被察覺的操控。長期互動的人工智慧能更具針對性和有效性地調整其策略。
可能的危害包括:
- 經濟傷害:心理健康聊天機器人可能會讓焦慮症患者避免公共場所,從而導致失業和財務問題。
- 身體或社會文化傷害:人工智慧可能操控對某些種族或民族的情感,可能引發欺淩或暴力。
- 心理傷害:人工智慧可能強化孤立感,阻礙個人尋求專業幫助。
- 隱私傷害:人工智慧可能誘使用戶透露個人數據或安全信息。
- 自主性傷害:過度依賴人工智慧進行決策可能導致認知脫離和獨立性下降。
- 環境傷害:人工智慧可能促使對氣候變化的不作為,助長環境有害行為的自滿。
- 政治傷害:人工智慧可能導致用戶接受激進或有害的信念。
人工智慧如何說服
人工智慧使用各種策略進行說服,模仿人類互動技術。研究人員識別出幾種機制:
- 信任與融洽:人工智慧透過禮貌和愉快的回應、恭維及與用戶觀點一致的輸出來建立信任,這可能誤導用戶認為人工智慧更具人性。
- 擬人化:用戶在與虛擬形象或機器人互動時,常常將人類特徵歸因於人工智慧,尤其是在語言和行為上。
- 個性化:人工智慧透過保留用戶的特定數據並適應個人偏好變得具有說服力,其中包括可識別的個人信息。
- 欺騙:人工智慧可以操控真相和虛假表現身份,聲稱虛假的權威性。
- 直接操控:人工智慧可以使用社會壓力、恐懼和內疚等策略來影響用戶。
- 選擇環境改變:選擇的呈現方式可以對決策產生顯著影響,通過利用錨定或誘餌選項來扭曲認知。
減輕人工智慧說服和操控
雖然已經有試圖減輕人工智慧說服影響的行動,但許多重點在於有害後果,而未充分理解人工智慧的說服方式。在研究環境中評估和監控這些能力是至關重要的。
挑戰包括在評估過程中使欺騙行為對參與者隱形。其他策略可能包括對抗測試(紅隊)或提示工程,以分類有害的說服,確保人工智慧生成不具操控性的回應,並提供相關的背景或事實信息。
應用有害說服分類,加上少量樣本和零樣本學習,也可以改善人工智慧的回應。此外,基於人類反饋的強化學習(RLHF)可以懲罰人工智慧系統中的有害行為。
了解人工智慧的內部機制對於識別和減輕操控傾向至關重要,這將增強我們有效應對人工智慧說服所帶來挑戰的能力。