在Anthropic擔任首席資訊安全官的Jason Clinton,角色多元,直接向CEO Dario Amodei報告。他帶領專業團隊,負責管理該公司各方面的安全性,包括數據保護和實體安全。Anthropic是一家由Google和Amazon支持的初創企業,以其先進的語言模型Claude和Claude 2而聞名。儘管已籌集超過70億美元的資金並僱用約300名員工,Clinton的重點仍然是保障Claude模型權重的安全——這些權重存儲在一個龐大的TB級檔案中,以防未經授權的存取。
在機器學習,特別是深度神經網絡中,模型權重代表關鍵的數字連接,使神經網絡能夠學習並進行預測。這些權重的最終數值對模型的整體性能影響重大。最近的Rand Corporation研究報告強調了保護這些權重的重要性,因為它們囊括了訓練先進模型所涉及的大量資源和複雜過程。如果惡意行為者獲得這些權重,則可以以極低的訓練成本完全訪問該模型。Clinton在最近的一次訪問中提到:“我大約花了CISO任期一半的時間來思考如何保護那個檔案。”他指出,該檔案在組織內獲得了大量的關注和資源。
對模型權重的擔憂
Clinton在Google工作了11年後轉到Anthropic,他指出,儘管一些人認為這些權重是極具價值的知識產權,公司最關注的還是防止技術落入不法之手。他解釋說,機會主義者、恐怖組織或國家行為者的濫用可能造成嚴重後果。“如果攻擊者獲取了整個檔案,那就是整個神經網絡,”他警告道。
最近美國政府的倡議也反映出這種擔憂。白宮的行政命令要求“安全、可靠和可信賴的人工智慧發展與使用”,要求基礎模型公司記錄其模型權重的所有權和安全措施。
在這一領域中,OpenAI於2023年10月在一篇博客中表示,正全力投資於網絡安全措施,以保護其專有模型權重,並限制在其組織和技術夥伴Microsoft以外的分發。
新研究識別的攻擊向量
Rand Corporation的聯合作者Sella Nevo與Dan Lahav在報告《保護人工智慧模型權重》中,識別了約40個壞人可能利用的潛在攻擊向量。從未授權的實體存取到供應鏈攻擊,報告中突出了一些這些向量的具體案例。
Nevo強調,關注的焦點不在於當前的能力,而是未來的風險,隨著模型的進步,預測將有重大的國家安全影響。
開放基礎模型的風險
並非所有專家對AI模型權重洩漏的風險嚴重性持相同觀點,特別是在開源模型方面。斯坦福大學HAI的一份政策簡報指出,大規模可用的開放基礎模型有助於推動創新和透明度,建議應將與它們相關的風險評估與封閉模型進行比較。
民主與科技中心的Kevin Bankston對該簡報的平衡、基於證據的分析表示讚賞。簡報強調了混合結果,引用了Meta的Llama 2模型,該模型公開發布了可以獲取的權重,儘管之前出現過洩漏。
雖然支持者主張開源安全,喬治城大學的Heather Frase指出,隨著生成模型的發展,潛在的危害也在增加,尤其是對於受惡意技術針對的個體。
在安全中強調開放性
Hugging Face的ML工程師Nicolas Patry表示,模型權重相關的風險需要定期的安全協議。然而,他認為透明度可以提高安全性。Lightning AI的CEO William Falcon也支持這一觀點,認為試圖控制模型權重洩漏是徒勞的,因為開源社區迅速演變。
Clinton認同開源模型並不是Anthropic需要優先考慮的最大風險。他呼籲政府應該專注於規範“前沿”模型,同時強調持續研究和安全的重要性。
持續的安全挑戰
儘管研究人員持樂觀態度,Nevo卻警告不要自滿,指出當前的安全措施可能無法充分保護未來的威脅。Clinton強調AI安全領域人才短缺的挑戰,並表示:“目前沒有AI安全專家……我們需要能夠迅速適應這一不斷演變格局的頂尖安全工程師。”
他對攻擊者利用脆弱性日益容易表示擔憂。展望未來,他預計網絡安全實踐將從定期更新轉變為每日更新,這將要求整個行業轉變思維。
Clinton對迅速的研究進展與堅實的安全措施之間的平衡承諾,凸顯了主動策略以保護AI模型權重的迫切性。他總結道:“我們的研究團隊在安全管理模型權重的同時感受到支持,這對我們來說至關重要。”