最近亚马逊网络服务(AWS)的研究人员发布了一项研究,揭示了能够理解和回应语音的大型语言模型(LLMs)中存在严重的安全漏洞。该论文名为《SpeechGuard: 探索多模态大型语言模型的对抗鲁棒性》,显示这些人工智能系统可以被操控,通过精心设计的音频攻击生成有害或不道德的回应。
随着语音接口在智能音箱和人工智能助手等领域的广泛应用,确保其安全性和可靠性至关重要。研究表明,尽管已有安全措施,语音语言模型(SLMs)仍高度易受"对抗攻击"的影响。这些攻击通过对音频输入进行微小的、人工无法察觉的修改,能够显著改变模型的输出。
研究中提到的一个引人注目的例子是,如果一个语音AI系统受到对抗攻击,可能会被迫提供不道德的指令—例如,如何抢银行。为应对这些漏洞,研究人员建议采用预处理防御机制。
利用对抗音频破解SLM
研究报告显示,SLMs的实验暴露出惊人的脆弱性,通过对抗扰动进行破解的平均成功率高达90%,在针对危害性问题的数据集中,转移攻击的成功率为10%。研究人员警告,这种脆弱性可能会被恶意行为者大规模利用。
研究团队使用投影梯度下降法生成的对抗示例,持续促使SLM在12个类别(包括显著暴力和仇恨言论)中产生有毒输出。值得注意的是,当他们完全访问到模型时,成功率达到了90%。
该研究强调了对不同语音问答AI模型进行对抗攻击的可行性。通过交叉模型和交叉提示的策略,可以引发意想不到的反应,突显了建立强大可转移防御机制的迫切需要。
黑箱攻击:现实威胁
更令人担忧的是,研究发现为一个SLM设计的音频攻击,通常可以成功转移到其他模型,即使没有直接访问—这是一个日益普遍的现象,因为大多数商业提供商的API访问受到限制。虽然在这个“黑箱”上下文中攻击的成功率降至10%,但仍构成了重大安全隐患。
首席作者拉古维尔·佩里表示:“这些攻击在不同模型架构之间的可转移性表明我们当前训练这些系统以确保安全性和一致性的方法存在根本缺陷。”
随着企业越来越多地将语音AI应用于客户服务和数据分析等功能,其含义深远。不仅有可能造成AI失效带来的声誉损害,还可能助长欺诈、间谍活动甚至自动化环境下的物理伤害。
应对措施与未来展望
幸运的是,研究人员提出了多种应对措施,如向音频输入引入随机噪声(称为随机平滑)。实验表明,该技术显著降低了对抗攻击的成功率,尽管作者也承认这并不是万无一失的解决方案。
佩里感叹道:“防御对抗攻击是一个持续的军备竞赛。随着模型能力的提升,滥用的潜力也在增加。不断投资于提升安全性和鲁棒性至关重要。”
研究中的SLMs是在对话数据上训练的,在实施攻击前,语音问答任务的表现达到了超过80%的安全性和有效性。这突显了在技术发展的同时平衡能力和安全性的挑战。
在领先技术公司争相开发更强大的语音AI之际,这项研究提醒我们,在技术开发中,安全性应当被优先考虑,而不是事后才引起重视。监管机构与行业组织之间的协作将是建立严格标准和测试协议的关键。
正如合著者卡特琳·基尔霍夫所强调的:“我们正处于这项技术的拐点上。它在社会利益方面具有巨大潜力,但如果没有负责任的发展,也可能造成伤害。这项研究是最大化语音AI优势、最小化风险的关键一步。”