为什么Anthropic和OpenAI重视大型语言模型权重的安全性

Home AI News CN 为什么Anthropic和OpenAI重视大型语言模型权重的安全性

Updated on 十二月 14 2023

在Anthropic担任首席信息安全官的杰森·克林顿（Jason Clinton）直接向首席执行官达里奥·阿莫代（Dario Amodei）汇报，其职责多面而复杂。他带领一个专业团队，专注于数据和物理保护，这家公司是谷歌和亚马逊支持的新兴创业公司，以其先进的语言模型Claude和Claude 2而闻名。尽管已筹集超过70亿美元的投资并雇佣约300名员工，克林顿的主要任务是防止机密模型权重——存储在一个巨大惊人的TB级文件中——被未经授权的访问。

在机器学习中，尤其是深度神经网络中，模型权重代表了神经网络学习和做出预测的关键数值连接。这些权重的最终值显著影响模型的整体性能。兰德公司（Rand Corporation）最近发布的研究报告强调了保护模型权重的重要性，因为它们包含了训练先进模型所涉及的大量资源和复杂过程。如果这些权重被恶意行为者获取，将允许其以极低的成本完全访问模型。

克林顿在最近的采访中表示：“我作为CISO的近一半时间都在思考如何保护那个文件，”他指出，这一文件在组织内部获得了大量关注和资源。

对模型权重的担忧

克林顿在谷歌工作11年后加入Anthropic，他指出，尽管一些人认为权重是非常有价值的知识产权，但公司的主要关注点是阻止该技术落入错误之手。他解释说，机会主义犯罪分子、恐怖组织或国家行为者的滥用可能会导致严重后果。“如果攻击者获取了整个文件，那就相当于获取了整个神经网络，”他警告道。

这一担忧得到了美国政府近期倡议的呼应。白宫发布的关于“安全、可靠且值得信赖的人工智能开发和使用”的行政命令要求基础模型公司记录其模型权重的所有权和安全措施。

在2023年10月的一篇博客中，OpenAI在该领域的突出参与者，表示它正在积极投资网络安全措施，以保护其专有模型权重，限制其在公司和技术合作伙伴微软以外的分发。

新研究揭示攻击向量

兰德公司的研究报告《保护人工智能模型权重》的合著者塞拉·内沃（Sella Nevo）和丹·拉哈夫（Dan Lahav）确定了约40个潜在攻击向量，恶意行为者可能利用这些向量窃取模型权重。报告列举了对未授权物理访问和供应链攻击的真实案例。

内沃强调，担忧的焦点不在于当前的能力，而在于未来的风险，预测随着模型的发展，这将对国家安全产生重大影响。

开放基础模型的风险

并非所有专家都对AI模型权重泄漏所带来的风险的严重性意见一致，尤其是关于开源模型。斯坦福大学人工智能政策研究所（Stanford HAI）的一份政策简报指出，广泛可用的开放基础模型可以促进创新和透明度，建议应将其风险与封闭模型进行评估。

民主与技术中心（Center for Democracy & Technology）的凯文·巴恩克斯（Kevin Bankston）称赞该简报的分析平衡且基于证据。简报指出了不同的结果，并提到了Meta的Llama 2模型，该模型在之前泄漏后仍以公开权重发布。

尽管倡导者支持开源安全，乔治城大学（Georgetown University）的希瑟·弗雷斯（Heather Frase）指出，随着生成模型的演变，对个体造成的潜在伤害也在增加，尤其是针对恶意技术的目标。

强调安全中的开放性

Hugging Face的机器学习工程师尼古拉斯·帕特里（Nicolas Patry）表示，模型权重的风险需要定期的安全协议。然而，他认为透明性会增强安全性。Lightning AI的首席执行官威廉·法尔孔（William Falcon）对此表示同感，认为试图控制模型权重的泄漏是徒劳的，因为开源社区正在快速发展。

克林顿同意，开源模型并不是Anthropic必须优先关注的最大风险。他呼吁政府应专注于监管“前沿”模型，同时强调持续研究和安全的重要性。

持续的安全挑战

尽管研究人员持乐观态度，内沃仍对懈怠提出警告，指出目前的安全措施可能不足以防范未来的威胁。克林顿则强调AI安全领域的人才短缺问题：“没有AI安全专家…我们需要能够迅速适应这个不断演变的环境的优秀安全工程师。”

他对攻击者可能更容易利用漏洞表示担忧。展望未来，他预见网络安全实践将从定期更新转向每日更新，这将需要整个行业心态的重大转变。

克林顿在快速研究进展与强大安全措施之间取得平衡的承诺，凸显出保护AI模型权重的迫切性。“让我们的研究团队在安全管理模型权重时感到支持至关重要，”他总结道。

提升员工与客户沟通：UCaaS如何消除沟通障碍

HiOperator推出SMSBot：运用生成式AI提升客户支持体验