Official Blog
CrowdStrike 引爆史上最大 IT 癱瘓事件,Synology 提出強化資料韌性五大要點、確保災難復原計畫可用性
Tony Lin - Product Marketing
2024-08-6

CrowdStrike 引爆史上最大 IT 癱瘓事件,Synology 提出強化資料韌性五大要點、確保災難復原計畫可用性

2024 年 7 月19 日,由於 CrowdStrike 試圖更新「Falcon Sensor」用於執行即時威脅檢測和終端保護的內容,導致全球許多 Microsoft Windows 裝置故障,連帶導致眾多企業的 IT 及營運系統也跟著中斷。Synology 認為這次事件反映出企業建置基礎架構時,在災害復原計劃上考量大多不夠完整,導致遇上任何突發事故都會無所適從,應重新審視當前的計劃是否完善,並透過完整、可靠的備份機制,才是確保業務持續性的關鍵。

CrowdStrike 衝擊全球各行業,上千航班得用人工處理

這次停擺首先發生在澳洲,Windows 裝置當機並顯示「藍底白字」,接著這項錯誤更新蔓延至全球範圍,造成諸多 Windows 系統癱瘓,金融業、資訊服務業、傳統製造和高科技製造產業等關鍵服務提供者,都陸續傳出災情。

舉例來說,《華爾街日報》就引述航班資訊平台 FlightAware 的資料,光是 7 月 19 日一天,美國就有 2600 個航班被取消,全球則有超過 4200 個航班受到影響,並全部改採人工作業,可見此次事件影響範圍極為廣闊。

繁瑣漫長的手動修復,導致 RTO 過長影響企業營運

事件發生後,儘管 CrowdStrike 隨即發布了修復程式,並向受影響的客戶提供技術支援,協助恢復系統營運,但組織中仍有多數系統,無法透過單靠修復程式自動復原。當裝置無法自動修復,唯一途徑就是 IT 要針對每台受影響的裝置,逐一手動啟動安全模式,刪除有問題的 CrowdStrike 更新檔案。

為了便於 IT 人員操作,微軟緊急在該周末提出解決方案,像是透過隨身硬碟登入 Windows 預先安裝環境,自動刪除 CrowdStrike 更新檔案。即便這減少了復原過程中的操作步驟,還是無法避免 RTO(最短復原時間目標)過長。一旦企業 RTO 過長、無法迅速解決營運中斷的問題,就會引發多種負面影響,如生產力下降、財務損失、合規風險,甚至可能嚴重損害企業聲譽,進而導致客戶流失

相信這次事件也說明,任何系統都有故障的可能性,因此 Synology 建議企業需預先準備完整的備份與災難復原策略,才能最小化業務中斷對企業所造成的負面影響。

延伸了解 | 碰上勒索病毒,怎麼迅速重回營運? >> https://sy.to/t3adt

光有備份還不夠,參考五大面向檢視災害復原策略完整性

事實上,當前多數組織確實都具備資料備份意識,但執行完整性普遍都還有改善空間。Synology 呼籲組織應參考以下五大方向,檢視當前災害復原策略的完善程度:

  1. 全面且定期的備份:現今企業營運或開發時,通常會跨足多個平台或工具。當某些工作負載被忽略或未被保護到,遇到類似事件時仍有可能影響整體企業營運、導致停擺。因此,企業規劃備份時,不能允許有任何資料孤立存在,務必將各種來源、裝置都納入規劃中並且定期執行備份。

  2. 定期進行還原演練:由於組織不會知道何時會遭遇設備故障、系統癱瘓,所以必須持續測試、演練備份資料的可還原性,同時檢查還原計劃的有效性和可操作性,若察覺到漏洞就要立即修復,災難實際發生時才能順利重啟營運。

  3. 即時虛擬機還原:當企業不幸遭遇逢意外,首要目標就是確保營運不中斷。為了最小化停機時間,建議應透過虛擬化方式即時掛載服務,以最快速度回復營運。

  4. 跨平台還原:組織必須確保備份環境,具備跨平台還原的能力,像此次 CrowdStrike 是單一平台受影響,企業便可選擇將服務還原到不同平台上,分散還原所面臨的風險。

  5. 異地備份與異地還原能力:除了擁有一份本地端的備份,企業還會需要位於異地的備份,藉此分散風險。以此次事件為例,若企業採用雲端服務,且同時有做好雲端異地備份的話,就能透過異地站點重啟服務,最小化企業停機的風險。

Synology 備份產品執行副總劉家宇最後指出,CrowdStrike 更新導致的業務中斷事件再次提醒了企業,備份是達成資料韌性的關鍵,更是確保企業成功數位轉型重要的一環。借鏡此次事件,組織需更加重視備份與還原策略,並投資全面的備份與災難復原解決方案,建立健全系統並定期測試和更新,才能在面對突發事件時迅速恢復系統,確保業務持續性。

想要多了解 Synology 的資料保護解決方案,如何強化企業營運韌性嗎?立刻填寫線上諮詢表單,我們將會有專人與您聯絡:https://sy.to/9cpjx