Official Blog
Rozluštění mýtů spojených s deduplikací dat
Tým Synology
25. 6. 2024

Rozluštění mýtů spojených s deduplikací dat

Organizace vytvářejí více dat než kdykoli předtím. Proto musejí být schopny maximalizovat úložnou kapacitu a ukládat co nejvíce dat bez zbytečných výdajů. Zde přichází na řadu deduplikace dat. Pomocí této techniky jsou redundantní data odhalena a odstraněna ještě před samotným zálohováním. To vede k efektivnějšímu využití úložného prostoru, takže máte více kapacity pro ukládání nových dat. Tím je také zajištěno účinnější zálohování, protože nemusíte trávit čas zálohováním duplicitních kopií stejných dat.

Mějte vždy na paměti, že každý výrobce může tvrdit, že jeho produkt nabízí určitý poměr deduplikace dat. Některý výrobce může například tvrdit, že nabízí 20krát vyšší míru deduplikace než ostatní, a dokáže tak překonat konkurenci o více než 200 %. Skutečnou míru deduplikace však obvykle ovlivňuje mnoho proměnných.

Podívejme se tedy, co je to deduplikace dat a jak vyhodnotit poměr deduplikace při výběru zálohovacího řešení.

Jak vypočítat poměr deduplikace dat

Abyste mohli účinně odstraňovat duplicitní data, musí být vaše zařízení vybaveno procesory a softwarovými technologiemi, které umožňují šetřit úložný prostor.

Při použití deduplikace dat systém identifikuje bloky dat před jejich uložením. Každému bloku dat je přiřazeno jedinečné identifikační číslo a pro uložené bloky jsou vytvořeny otisky (anglicky hash nebo fingerprint). Otisky uložených bloků se pak porovnávají s nově zapsanými bloky dat.

Pokud je zjištěn duplicitní blok, systém vygeneruje index, který ukazuje na umístění duplicitních dat. Nadbytečná data jsou poté odstraněna, aby bylo možné optimalizovat kapacitu úložiště.

Riziko útoků ransomwaru se každým dnem zvyšuje. Proto musejí podniky zavést účinný plán zálohování i obnovy dat a také zajistit dostatečnou úložnou kapacitu pomocí deduplikace dat.

Firmy mají tendenci pravidelně zálohovat velké množství dat, což může vést ke zvýšení nákladů na úložiště. Nová nebo upravená data obvykle tvoří jen nepatrný zlomek z celkového objemu zálohovaných dat. To znamená, že velké množství pravidelně zálohovaných dat, je ve skutečnosti duplicitní nebo redundantní. Zde přichází na řadu deduplikace dat.

Aby bylo možné efektivně vypočítat poměr deduplikace dat, musí uživatelé vypočítat procento duplicitních dat, která jsou nakonec odstraněna.

Vzhledem k tomu, že každý výrobce má tendenci počítat míru deduplikace dat jinak, vysvětlujeme níže tři fáze výpočtu poměru deduplikace dat. Každá fáze generuje jinou hodnotu:

Fáze 1 [Původní soubor dat]: Celková kapacita dat, kterou je třeba zálohovat před odstraněním nadbytečných dat.

Fáze 2 [Přenos dat po deduplikaci]: Množství dat, které lze po deduplikaci dat přenést k uložení na server.

Fáze 3 [Skutečně uložená data]: Množství dat uložených na záložním serveru.

Při měření účinnosti deduplikace dat doporučuje společnost Synology sledovat fázi 2 [přenos dat po deduplikaci]. Hodnota vygenerovaná během fáze 1 [Původní soubor dat] může být zavádějící, protože obsahuje jak “stará”, tak “nová” data, která se pak vydělí celkovým množstvím zachovaných dat. Někteří výrobci mohou toto číslo uměle nadsadit a zmást tak uživatele v tom, kterou fázi výrobce skutečně používá k měření účinnosti deduplikace dat.

Jak je uvedeno níže, po výpočtu jsou k dispozici dva různé výsledky. Je mezi nimi velký rozdíl, který by mohl vést k nedorozumění – daný uživatel nebo podnik by mohl špatně pochopit účinky deduplikace dat.

Když jsme zjišťovali, jak produkty našich konkurentů provádějí deduplikaci dat, zjistili jsme tři výše uvedené fáze. Vydělte původní sadu dat před deduplikací s množstvím úložného prostoru zabraného v cílovém místě pro 95% redukci dat.

Podniky by se však měly zaměřit na velikost přenášených dat, která by se měla vydělit velikostí úložného prostoru zabraného v cílovém úložišti. Při použití tohoto vzorce pro výpočet míry deduplikace dat bude průměrná redukce dat zhruba 40~66 %.

Například tchajwanská společnost Shiseido dokázala zvýšit kapacitu úložiště o 52 % pomocí technik deduplikace dat, které jsou součástí zálohovacích řešení Synology. V porovnání s ostatními dodavateli zálohování nabízí společnost Synology řešení za sníženou cenu, což umožňuje podnikům ušetřit náklady na úložiště a maximalizovat jejich úložnou kapacitu, aby mohly ochránit co nejvíce dat.

Maximalizujte kapacitu úložiště a snižte náklady pomocí deduplikace dat

Společnost Synology zohlednila bolavá místa mnoha podniků a implementovala technologii deduplikace dat, takže firmy nyní mohou minimalizovat své náklady na úložiště a zároveň maximalizovat úložnou kapacitu.

Společnosti mají tendenci zálohovat data průběžně a zároveň je ukládat na svá úložná zařízení. To znamená, že pokud nejsou duplicitní data odstraněna už před zápisem dat, vytvoří se na zálohovacím zařízení dočasný úložný prostor.

Proto společnost Synology při zálohování implementovala inline deduplikaci. Před zápisem jakýchkoli dat systém současně porovná obsah dat a provede jejich odstranění, čímž sníží kapacitu úložiště potřebnou k uložení dat.

Společnost Synology zároveň implementovala technologii globální deduplikace na úrovni bloků jako způsob odstranění duplicitních kopií mezi více zdroji zálohování. Tím je zajištěno, že mezi více úlohami zálohování v rámci jedné složky nezůstanou žádná redundantní data. To pomáhá firmám šetřit úložný prostor, aniž by to mělo vliv na výkon zálohování.

Data jsou zlatý důl, a proto musí podniky udělat vše pro bezpečné ukládání svých dat. To znamená, že firmy musí plánovat dopředu svůj vývoj a vybrat vhodné zálohovací řešení. To musí vyhovovat potřebám škálovatelnosti a rozšiřování a také zahrnovat technologie pro redukci využití úložišť – například zmiňovanou deduplikaci dat. Díky tomu pak sníží celkové náklady na vlastnictví (TCO).

Klikněte sem a zjistěte více.