Official Blog
重複資料刪除比愈高愈有效?Synology 帶你破解數字迷思,掌握「真實」的備份儲存空間節省成效
Tony Lin - Product Marketing
2023-08-7

重複資料刪除比愈高愈有效?Synology 帶你破解數字迷思,掌握「真實」的備份儲存空間節省成效

隨著數位化時代的來臨,企業開始蒐集大量數據,以觀察趨勢或做出更好的決策,進而衍生留存、保護龐大資料量的需求。然而,與日俱增的資料,卻成為了企業的挑戰,其中「儲存成本」可說是企業最大的負擔之一,因此眾多企業開始尋找「儲存減量」的解決方案。

研究各種解決方案的過程中,負責的 IT 人員一定會經常看到「重複資料刪除比」或「平均移除重複率等」類似名詞,作為宣傳儲存減量技術的效果,近期我們便觀察到,有廠商表示自家產品的重複資料刪除比為 20 倍,優於市場上其他競品效果 200% 以上。然而,重複資料刪除比其實存有操作的空間,建議大家先跟 Synology 一起正確理解與評估相關數據,避免掉入行銷陷阱而不自知。

避開誇大數據陷阱,要懂得計算 「有意義」的重複刪除資料比

實際了解重複資料刪除比之前,首先讓我們一起看看此項技術究竟如何運行。如果要刪除重複的資料,儲存設備得搭載相應的 CPU,並配合從資料底層節省儲存空間的軟體技術。

更詳細來說,實作重複資料刪除技術時,系統會先替檔案區塊生成識別碼,並為每個已儲存的檔案區塊建立 Fingerprint ,接著便會比對已儲存檔案區塊,和新寫入資料檔案區塊的 Fingerprint,當系統偵測到重複的區塊,便會產生指向副本位址的索引,並移除重複資料,以最佳化整個系統的儲存空間使用率

回到企業實務環境,儲存需求隨營運成長越發多樣化,其中備份資料儲存,是眾多企業欲施作重複資料刪除的指標服務之一,畢竟當前勒索軟體橫行、資安風險提高,資料保護已經成為組織必須投入的項目。

然而,「持續流入大量資料」的備份資料儲存,卻是一項容易大幅提高儲存成本的應用。原因在於企業每日新增或修改的資料,只占整體備份資料量的一小部分,所以每天備份的資料當中,其實涵蓋了非常多「重複性」資料,這就會是「重複刪除資料」 技術的著手關鍵點。

而「重複資料刪除比」正是以數字衡量,最終有多少重複資料經刪除的比率,能幫助使用者客觀比較此技術效能的優劣。儘管各廠牌計算方式不太一樣,但大致上可以歸納為 3 個實作階段、分別產生 3 項數值(請參見下圖):

  1. 原始資料:移除重複資料前的備份資料總容量

  2. 刪除重複資料後的待傳輸資料:實行去重複技術刪減後、準備傳至伺服器保存的資料

  3. 最終留存資料:經過壓縮、實際上存放於備份伺服器的資料

 原始資料經過重複資料刪除技術之後,會再壓縮存進備份伺服器中,成為最終留存資料。

而在這 3 個數值當中,Synology 建議最應該以「刪除重複資料後的待傳輸資料」,作為主要衡量重複資料刪除效果的數字。原因在於使用原始資料的話,其中涵蓋了備份來源設備中所有的「新、舊」資料,單靠此數字除以最終留存資料,會有刻意放大的嫌疑無法明確了解該廠商實際刪除重複資料的能力。

在下圖當中可以透過實際數字試算,看到兩種不同的計算方式之後的結果,確實存在很大的歧異,容易讓企業誤解重複資料刪除技術的效果。

檢視重複資料刪除比時,應以「刪除重複資料後的待傳輸資料」,除以「最終留存資料」,才能真正檢視其成效。

我們實際參考另一間外商備份專用機的移除重複資料白皮書,其中有揭露上述 3 項數值,若以移除重複資料前的資料總容量,除以目的地上實際使用的容量計算,會有高達 95% 的移除重複率;但企業更應該注重的,是執行當下的傳輸備份資料容量,除以目的地上實際使用的容量,改用這個公式計算之後,平均移除重複率就會調整為 40%~66%。

Synology 推出的同級解決方案,當前已經能提供效果相當的平均移除重複率,以台灣資生堂為例,採用 Synology 解決方案後,省去了 52% 的儲存空間。更關鍵的是,在相同去重複效率的條件之下,Synology 單一儲存成本僅有外商競品的 30%,不只幫企業省去儲存空間的成本,連導入的總費用都一併省下。

延伸了解 |  台灣資生堂如何善用 Synology 節省儲存空間、強化備份和還原速度?

備份資料是企業整體儲存成本的關鍵,靠全域區塊重複刪除技術為組織精省空間

既然存放備份資料的需求,會大幅影響一間公司的儲存成本,專注於解決企業痛點的 Synology 更採用多重技術,進一步為企業節省備份資料的儲存成本。

由於備份應用會將資料不間斷且定時存入設備,如果沒有在寫入前就刪除重複資料,備份設備上便會保留非常大的「暫存空間」。因此 Synology 針對資料備份應用,導入了「在線」(inline)重複資料刪除技術,在於資料寫入儲存空間之前,系統會同時進行資料內容比對與刪除演算動作,由於資料在寫入磁碟前就已經執行過刪減演算,能大幅減少所需占用空間。

同時,Synology 還採取了全域區塊重複刪除技術,可移除多個備份來源之間的重複複本,讓資料備份可在單一資料夾內,直接移除多個備份任務之間的重複資料。藉此在不影響整體備份效能的情況下,精省儲存空間。

最後,企業應認知到資料除了是能助攻營運發展的黃金、石油,同時也得承擔其持有成本。面對資料應用與保存需求只增不減的情況下,企業必須 「有計畫性」地評估擴充需求與升級相關設備,適時導入「儲存減量」等現代技術,以節省設備總擁有成本(Total Cost of Ownership,TCO),並審慎衡量重複資料刪除率等評估方式的可靠性,才得以在與日俱增的資料量與預算之間取得平衡。

延伸了解 | Synology 備份解決方案不只降低儲存成本,更能確保效率與資料可還原性