亞馬遜網路服務(AWS)研究人員最近的一項研究揭示了大型語言模型(LLMs)在理解和回應語音方面存在嚴重的安全漏洞。該研究題為《SpeechGuard:探索多模態大型語言模型的對抗魯棒性》,揭示這些人工智慧系統如何通過精心設計的音訊攻擊被操縱,生成有害或不道德的回應。
隨著語音介面日益普及,從智慧音箱到AI助手,確保其安全性和可靠性至關重要。研究指出,儘管現有安全措施,語音語言模型(SLMs)仍然高度易受“對抗攻擊”的影響。這些攻擊涉及對音訊輸入的輕微改動,這些改動人類難以察覺,但卻能徹底改變模型的輸出。
例如,AWS研究強調,當受到對抗攻擊時,語音AI系統可能被迫提供不道德的指導,例如如何搶劫銀行。為了對抗這些漏洞,研究人員建議採用預處理防禦機制。
透過對抗音訊進行破解
研究作者報告稱,他們的實驗顯示SLMs的驚人漏洞,使用對抗擾動進行破解的平均成功率達90%,而對有害問題數據集進行轉移攻擊的成功率為10%。他們警告這可能帶來嚴重後果,包括惡意行為者可能大規模利用這些弱點。
研究人員運用投影梯度下降法生成對抗示例,持續促使SLMs在12個類別中產生有毒輸出,包括明示暴力和仇恨言論。值得注意的是,當他們完全訪問模型時,成功突破安全限制的比率達90%。
該研究強調了對抗攻擊在各類語音問答AI模型中的可行性。通過採用跨模型和跨提示的策略,意外回應被引發,突顯了建立強大和可轉移防禦的迫切需求。
黑箱攻擊:現實威脅
更令人擔憂的是,研究發現針對一種SLM設計的音訊攻擊,往往可以成功轉移到不同模型,即使沒有直接訪問——這在大多數商業提供商限制API訪問的情況下越來越普遍。儘管在“黑箱”環境中攻擊成功率下降至10%,但仍然是一項重大的安全漏洞。
首席作者Raghuveer Peri表示:“這些攻擊在不同模型架構之間的可轉移性顯示了當前訓練這些系統以確保安全和一致性的方法存在根本性缺陷。”
隨著企業日益整合語音AI用於客戶服務和數據分析,這一現象的影響不容小覷。除了AI故障可能導致的聲譽損害,對抗攻擊還可能促進詐騙、竊密,甚至在自動化環境中造成實體傷害。
對策和未來之路
幸運的是,研究人員提出了多種對策,例如向音訊輸入引入隨機噪聲,稱為隨機平滑。實驗結果顯示,這一技術顯著降低了對抗攻擊的成功率,儘管作者承認這並非萬全之策。
“防範對抗攻擊是一場持續的軍備競賽,”Peri指出。“隨著這些模型能力的提升,濫用的潛力也隨之增長。持續投入以提升其安全性和穩健性至關重要。”
所研究的SLMs是基於對話數據進行訓練,實現了在語音問答任務上超過80%的安全性和有用性,這突顯了隨著技術發展平衡能力和安全性的挑戰。
隨著領先科技公司競相開發更強大的語音AI,這項研究提醒我們,安全應該被優先考量,而非事後補救。監管機構與業界團體之間的合作將對建立嚴格的標準和測試協議至關重要。
正如共同作者Katrin Kirchhoff強調的:“我們正處於這項技術的轉折點。它對社會利益具有巨大潛力,但如果不負責任地開發,也可能造成傷害。這項研究是最大化語音AI優勢、最小化風險的重要一步。”