Official Blog
Was ist Data Scrubbing? 2 Mechanismen zur Datenbereinigung
Stefan Hedwig
22. Juli 2022

Was ist Data Scrubbing? 2 Mechanismen zur Datenbereinigung

Im Laufe der Zeit können Daten auf Festplatten beschädigt werden. Grund dafür können z.B. Hardwarebeschädigungen sein. Durch diese Beschädigungen (oder auch Datenkorruptionen) werden Speichereinheiten ohne Vorwarnung anormal. Die folgenden beiden Bilder verdeutlichen das Problem. Das linke Bild stellt die Originaldatei dar und das rechte Bild die Datei mit dem Bit-Fehler und der Beschädigung. Bereits wenige Bit-Fehler können schwerwiegende Datenschäden verursachen. Data Scrubbing ist eine Methode, um das zu verhindern.

Foto mit Bit-Fehler_Datenkorruption vermeiden mit data Scrubbing

Data Scrubbing – eine Definition

Der englische Begriff „Data Scrubbing“ steht für Datenbereinigung. Diese Technik überprüft im Hintergrund regelmäßig die gespeicherten Daten auf Beschädigungen und korrigiert sie automatisch, um so Datenkorruption zu verhindern. Im Vergleich zu einfachen externen Festplatten bieten NAS-Systeme, wie die von Synology, zwei Data Scrubbing-Mechanismen: RAID Scrubbing und Btrfs Scrubbing.

Zwei Data Scrubbing-Mechanismen

1. RAID Data Scrubbing

Um RAID Scrubbing weiter erklären zu können, ist es notwendig zu wissen, was RAID ist. RAID steht für „Redundant Array of Independent Disks, also zu Deutsch eine „redundante Anordnung unabhängiger Festplatten“. Vereinfacht ausgedrückt geht es darum, mehrere unabhängige Festplatten zu einem Festplattenverbund zusammenzufassen. So kann unter anderem Datenredundanz erreicht und die Speichereffizienz gesteigert werden. Das heißt, wenn eine Festplatte ausfällt, sind mit einem RAID Daten weiterhin verfügbar. Dabei muss der Unterschied zwischen RAID und Backup beachtet werden. Während ein Backup unter anderem einen Schutz vor dem Löschen oder unbeabsichtigtem Bearbeiten von Daten bietet, kann ein RAID lediglich Probleme einer (oder mehrerer) Festplatten auffangen. Es gibt verschiedene RAID-Typen, die jeweils unterschiedliche Schwerpunkte auf die Ausfallsicherheit und Geschwindigkeit legen. RAID Data Scrubbing kommt beispielsweise bei RAID 5, RAID 6 und RAID F1 zum Einsatz, da diese RAID Typen Paritäten für die Redundanz einsetzen.

Data Scrubbing für RAID 5

Der grundlegende Mechanismus von RAID 5 basiert auf mindestens drei Festplatten. RAID 5 verwendet Paritäts-Striping von Datenblöcken zum Schreiben. Wie in der Abbildung unten gezeigt, schreibt RAID 5 beim Schreiben eines Datenelements auf das Festplattenarray nacheinander A1, A2, A3, B1, B2 und B3. Beim Lesen von Daten liest RAID die Daten auch sequentiell. Was sind also Pa, Pb und Pc? Es sind Paritätsblöcke, die über die Festplatte verteilt sind. Beim Schreiben auf A1, A2 und A3 verwendet RAID 5 den bitweisen XOR-Operator, um Pa zu berechnen und die entsprechenden Blöcke zu schreiben.

 

 

 

Pa = A1 (XOR) A2 (XOR) A3 (Funktion 1)

Wenn also eine der Festplatten beschädigt ist, dann kann RAID 5 die fehlenden Daten reparieren, indem es die Paritäts-Daten und den Inhalt der anderen beiden Festplatten verwendet. Angenommen, die Festplatte mit den A2-Daten ist beschädigt, dann können die Daten durch die folgende XOR-Berechnung rekonstruiert werden:

 

A2 = A1 (XOR) A3 (XOR) Pa (Funktion 2)

Dies ermöglicht die Redundanz bei RAID 5 und bietet somit Schutz vor dem Ausfall einer Festplatte und Datenverlust.

RAID Scrubbing scannt den gesamten Inhalt des Arrays, um sicherzustellen, dass alle Paritäts-Daten die Funktion 1 erfüllen. Wenn das nicht der Fall ist, wird es mit Funktion 2 repariert, bis alle Werte konsistent sind. Dadurch wird sichergestellt, dass die Daten auf der Festplatte korrekt sind.

Jetzt fragt sich der ein oder andere vielleicht: „Werden meine Daten für immer intakt bleiben, solange ich RAID Scrubbing regelmäßig durchführe?“ Leider lautet die Antwort darauf nein. Auch Synology als NAS-Hersteller kann nicht garantieren, dass die auf die Festplatte geschriebenen Daten immer korrekt bleiben. Einige Datenbeschädigungen treten unbemerkt auf, weswegen man sie auch als stille Datenbeschädigungen bezeichnet. Das heißt, einige Daten, die auf der Festplatte vorhanden sind, enthalten unbemerkt und unerklärlicherweise geänderte Daten. Dieser Zustand kann mehrere Gründe haben, wie zum Beispiel Festplattenfehler und elektromagnetische Interferenzen, um nur zwei zu nennen.

 Während RAID Scrubbing zwar die Konsistenz gespeicherter Daten sicherstellen kann, kann es eine unbemerkte Datenbeschädigung nicht verhindern. Das folgende Beispiel erläutert dies. Angenommen Pa soll über A1, A2 und A3 neu aufgebaut werden, weil beispielsweise Festplatte 4 ersetzt werden musste. Wenn nun ein Datenelement von A1, A2 und A3 beschädigt ist, dann errechnet die Funktion einen falschen Wert und speichert folglich diesen falschen Wert ab. Wäre der RAID Scrubbing-Check vor dem Festplattenausfall durchgeführt worden, hätte das falsche Datenelement erkannt und korrigiert werden können. Jetzt aber führt es dazu, dass das System einen verfälschten Wert als gültig erklärt, da das RAID Scrubbing die Fehler (den falschen und den fehlenden Wert) nicht erkennen und beheben kann. In diesem Fall benötigen Nutzer Btrfs Data Scrubbing.

2. Btrfs Data Scrubbing

Das Btrfs-Dateisystem kann zwei Metadaten auf einem Speicherplatz speichern und ihre zugehörigen Prüfcodes berechnen. Btrfs Data Scrubbing verwendet genau diese Funktion, um eine automatische Datenreparatur zu erzielen.

Btrfs Data Scrubbing verwendet einen Prüfsummenmechanismus, um im Btrfs-Dateisystem gespeicherte Daten zu untersuchen. Wenn festgestellt wird, dass Daten nicht mit der Prüfsumme übereinstimmen, versucht das System, sie mit redundanten Daten zu reparieren.

Diese Funktion erfordert, dass der Benutzer die Daten-Prüfsumme beim Erstellen eines neuen freigegebenen Ordners aktiviert. Das Btrfs-Dateisystem berechnet die Daten-Prüfsumme (data checksum) für jede geschriebene Datei und schützt diese durch eine weitere Prüfsumme (metadata checksum).

 

Risiko von Datenkorruption stoppen mit NAS

Wenn Nutzer sich nicht entscheiden können, welches Data Scrubbing System (System zur Datenbereinigung) sie am besten verwenden sollen, sind Synology NAS die perfekte Wahl. Das Data Scrubbing System von Synology integriert Btrfs-Data Scrubbing und RAID-Data Scrubbing, um die Datenintegrität sicherzustellen. Wenn das Dateisystem Btrfs genutzt wird, wird zuerst das Btrfs-Data Scrubbing durchgeführt. Nachdem sichergestellt wurde, dass die Daten korrekt sind, wird ein RAID Data Scrubbing durchgeführt, um die Datenkonsistenz weiter zu gewährleisten. Die beiden Systeme arbeiten somit perfekt zusammen. Sie minimieren zudem das Risiko einer stillen Datenbeschädigung und stellen sicher, dass das Speichersystem ohne Datenkorruption und ohne teure Unterbrechungen arbeitet.

Lesen Sie hier eine Schritt-für-Schritt-Anleitung zur Datenbereinigung mit Synology NAS.

Lesen Sie hier, wie Sie Ihre Daten richtig sichern und was ein gutes Backup ausmacht.