週四晚上,CrowdStrike的一次錯誤配置內容更新意外引發了全球範圍內的Microsoft Windows系統大規模故障,對多個關鍵服務造成了嚴重干擾。CrowdStrike計劃更新其Falcon Sensor所使用的內容,此傳感器通過監控系統活動以識別可疑行為,提供即時威脅檢測和端點保護,旨在加強基於最新持續收集的威脅情報的惡意活動檢測。
CrowdStrike的創始人兼CEO喬治·庫爾茨在接受CNBC訪問時解釋道:“這不是代碼更新,而是內容更新。一個驅動識別壞演員的額外邏輯的單一文件被推送,導致問題僅限於Microsoft環境。”
立即的全球影響
故障首次在澳大利亞被檢測到,Windows計算機崩潰並出現著名的藍屏死機(BSOD)。這次故障導致Windows系統的全球停擺,影響了依賴Windows平台的眾多機場、航空公司、銀行和服務公司。根據《華爾街日報》引用的FlightAware數據,約有2600架美國航班被取消,全球超過4200班次,數十萬名旅客被困。
Microsoft Azure雲平台也受到影響,客戶報告Windows計算機無響應和啟動失敗。Azure健康狀態顯示,此故障仍影響美洲、歐洲、亞太及中東和非洲的虛擬機器。
IT團隊面臨嚴峻的週末挑戰和接下來的繁重工作,因為許多雲配置需要根據每個客戶進行特定更新。建議在解決錯誤配置之前,推遲重大項目。
加強網絡韌性的行動呼籲
網絡韌性對企業至關重要,使其能夠預測、抵御和恢復不良條件,包括網絡攻擊和系統妥協。首席信息安全官(CISO)必須將網絡韌性作為高層管理及董事會責任的重要組成部分。
“每個企業都有修補挑戰。今天對CrowdStrike來說是一個困難的日子,影響了許多人。要求客戶減輕錯誤配置帶來的問題延長了反應和修復時間,”Reco的CISO梅里特·巴爾表示。
信任之浪CISO科里·丹尼爾斯指出,董事會越來越多地質疑首席韌性官的必要性,反映出將網絡韌性納入風險管理協議的更廣泛趨勢。高調的勒索病毒攻擊凸顯了企業在複雜供應鏈中面臨的嚴重後果。
錯誤配置強調了在公司運營中植入強大網絡韌性的必要性。歷史顯示,這些配置可能導致全球重大故障,這是我們快速發展的互聯網數字環境的現實。
“本週的故障凸顯了國家在缺乏充分網絡安全措施的情況下,遭受國家支持的網絡攻擊的潛在影響,”巴爾強調。欲了解國家網絡韌性的相關見解,請參考美國情報社區發布的2024年年度威脅評估。
要建立有效的網絡韌性,組織需要迅速識別問題,定義可自動化修復的方案,並與所有相關方保持清晰溝通。報告必須準確、易於接觸且及時,讓所有參與者能對結果負責。
JFrog的現場CISO保羅·戴維斯評論道:“CrowdStrike迅速反應,確定故障根源並通知客戶的做法值得讚賞,而他們CEO的透明度也受到重視。”庫爾茨持續在社交媒體上提供更新,承諾會分享故障原因的詳細分析。
恢復步驟
CrowdStrike已發布指導,以協助恢復受故障影響的系統。用戶應首先以安全模式啟動受影響的計算機,因為所需的Falcon Sensor更新位於Windows操作系統的子目錄內。如果計算機使用BitLocker或全磁盤加密,將需要相應的恢復密鑰。
CrowdStrike建議的恢復步驟可在其官方網站上找到。
網絡韌性作為信任的衡量標準
“安全供應商必須意識到他們在影響客戶結果方面的責任。我預期CrowdStrike未來將採用更謹慎的更新方法,”巴爾表示。持續的干擾影響無數生命並使企業陷入停滯,明確表明網絡韌性必須成為客戶體驗的基本要素,而不僅僅是一項安全倡議。
獲得和維護客戶信任在很大程度上取決於公司的網絡韌性。這次事件為各組織提供了一個關鍵時刻,讓他們評估面對類似挑戰的準備程度。
考慮到全球系統內部的複雜互聯性,未來的故障是不可避免的。各公司現在必須主動增強其網絡韌性,而不是等待下一次危機的到來。