在Anthropic担任首席信息安全官的杰森·克林顿(Jason Clinton)直接向首席执行官达里奥·阿莫代(Dario Amodei)汇报,其职责多面而复杂。他带领一个专业团队,专注于数据和物理保护,这家公司是谷歌和亚马逊支持的新兴创业公司,以其先进的语言模型Claude和Claude 2而闻名。尽管已筹集超过70亿美元的投资并雇佣约300名员工,克林顿的主要任务是防止机密模型权重——存储在一个巨大惊人的TB级文件中——被未经授权的访问。
在机器学习中,尤其是深度神经网络中,模型权重代表了神经网络学习和做出预测的关键数值连接。这些权重的最终值显著影响模型的整体性能。兰德公司(Rand Corporation)最近发布的研究报告强调了保护模型权重的重要性,因为它们包含了训练先进模型所涉及的大量资源和复杂过程。如果这些权重被恶意行为者获取,将允许其以极低的成本完全访问模型。
克林顿在最近的采访中表示:“我作为CISO的近一半时间都在思考如何保护那个文件,”他指出,这一文件在组织内部获得了大量关注和资源。
对模型权重的担忧
克林顿在谷歌工作11年后加入Anthropic,他指出,尽管一些人认为权重是非常有价值的知识产权,但公司的主要关注点是阻止该技术落入错误之手。他解释说,机会主义犯罪分子、恐怖组织或国家行为者的滥用可能会导致严重后果。“如果攻击者获取了整个文件,那就相当于获取了整个神经网络,”他警告道。
这一担忧得到了美国政府近期倡议的呼应。白宫发布的关于“安全、可靠且值得信赖的人工智能开发和使用”的行政命令要求基础模型公司记录其模型权重的所有权和安全措施。
在2023年10月的一篇博客中,OpenAI在该领域的突出参与者,表示它正在积极投资网络安全措施,以保护其专有模型权重,限制其在公司和技术合作伙伴微软以外的分发。
新研究揭示攻击向量
兰德公司的研究报告《保护人工智能模型权重》的合著者塞拉·内沃(Sella Nevo)和丹·拉哈夫(Dan Lahav)确定了约40个潜在攻击向量,恶意行为者可能利用这些向量窃取模型权重。报告列举了对未授权物理访问和供应链攻击的真实案例。
内沃强调,担忧的焦点不在于当前的能力,而在于未来的风险,预测随着模型的发展,这将对国家安全产生重大影响。
开放基础模型的风险
并非所有专家都对AI模型权重泄漏所带来的风险的严重性意见一致,尤其是关于开源模型。斯坦福大学人工智能政策研究所(Stanford HAI)的一份政策简报指出,广泛可用的开放基础模型可以促进创新和透明度,建议应将其风险与封闭模型进行评估。
民主与技术中心(Center for Democracy & Technology)的凯文·巴恩克斯(Kevin Bankston)称赞该简报的分析平衡且基于证据。简报指出了不同的结果,并提到了Meta的Llama 2模型,该模型在之前泄漏后仍以公开权重发布。
尽管倡导者支持开源安全,乔治城大学(Georgetown University)的希瑟·弗雷斯(Heather Frase)指出,随着生成模型的演变,对个体造成的潜在伤害也在增加,尤其是针对恶意技术的目标。
强调安全中的开放性
Hugging Face的机器学习工程师尼古拉斯·帕特里(Nicolas Patry)表示,模型权重的风险需要定期的安全协议。然而,他认为透明性会增强安全性。Lightning AI的首席执行官威廉·法尔孔(William Falcon)对此表示同感,认为试图控制模型权重的泄漏是徒劳的,因为开源社区正在快速发展。
克林顿同意,开源模型并不是Anthropic必须优先关注的最大风险。他呼吁政府应专注于监管“前沿”模型,同时强调持续研究和安全的重要性。
持续的安全挑战
尽管研究人员持乐观态度,内沃仍对懈怠提出警告,指出目前的安全措施可能不足以防范未来的威胁。克林顿则强调AI安全领域的人才短缺问题:“没有AI安全专家…我们需要能够迅速适应这个不断演变的环境的优秀安全工程师。”
他对攻击者可能更容易利用漏洞表示担忧。展望未来,他预见网络安全实践将从定期更新转向每日更新,这将需要整个行业心态的重大转变。
克林顿在快速研究进展与强大安全措施之间取得平衡的承诺,凸显出保护AI模型权重的迫切性。“让我们的研究团队在安全管理模型权重时感到支持至关重要,”他总结道。