Wie berechnet man die RAID-Zuverlässigkeit?
RAID-Festplattenarrays (Redundant Array of Independent Disks) sind in kritischen Dateninfrastrukturen weit verbreitet. Das Grundprinzip von RAID besteht darin, Datenredundanz hinzuzufügen, sodass kein größerer Datenverlust auftritt, wenn ein fehlerhafter Sektor auftritt oder sogar wenn eine ganze Festplatte ausfällt.
Die Frage ist: Wie zuverlässig sind RAIDs?
Wenn Sie ein IT-System entwerfen, das äußerst zuverlässig sein muss, ist dieses Dokument genau das Richtige für Sie.
Im Folgenden finden Sie eine Erklärung und ein Beispiel für die Berechnung der RAID-Zuverlässigkeit:
Eine bequeme Methode zur Berechnung der RAID-Zuverlässigkeit ist die Verwendung von Markov-Ketten. Das RBD Markov-Modul von BQRs ist ideal für solche Berechnungen.
Zur Berechnung der RAID-Zuverlässigkeit sind einige Parameter erforderlich:
- Festplattenfehlerrate: Die üblichen Werte liegen je nach Größe und Qualität der Festplatte / SSD zwischen 0,5 und 2 Ausfällen pro Million Stunden. Für die folgenden Berechnungen wurde 1 Fehler pro Million Stunden angenommen.
- Fehlererkennungszeit: Zeit, bis ein fehlerhafter Block erkannt wird. In zwei Fällen werden fehlerhafte Blöcke erkannt:
- Der Block wird aufgrund der Benutzeranforderung gelesen
- Der Block wird aufgrund eines geplanten RAID-Tests (Scrubbing) regelmäßig gelesen.
Für die folgende Berechnung wird eine Erkennungszeit von 1 Woche angenommen.
- Wiederherstellungszeit: Die Zeit zum Rekonstruieren der ausgefallenen Festplatte auf eine Ersatz- oder Ersatzfestplatte. Die Rekonstruktionszeit hängt von der Datenmenge auf der ausgefallenen Festplatte sowie von der Belastung des Arrays während der Neuerstellung ab. Die Datenrekonstruktion unter Verwendung von Paritätsberechnungen erfordert das Lesen von Daten von allen Array-Platten. Daher hängt die Rekonstruktionszeit auch von der Anzahl der Platten im Array ab.
Für die folgende Berechnung wird eine Wiederherstellungszeit von 1 Woche angenommen. Normalerweise sind die Wiederherstellungszeiten schneller, insbesondere wenn parallel zum Wiederherstellungsprozess ein geringer Datenbedarf besteht.
Hinweis: Festplatten haben auch eine Rate für fehlerhafte Bitlesevorgänge. Beispiel: Wenn die RAID-Festplatten eine Rate von 1 Lesefehler pro 10 haben15 Bits, und eine Rekonstruktion beinhaltet das Lesen von 1014 Bits gibt es nach dem Wiederaufbau durchschnittlich 0,1 falsch rekonstruierte Bits.
Beispiel: RAID 5
Stellen Sie sich ein Array mit 10 Festplatten und einer RAID 5-Konfiguration vor. Es gibt vier mögliche Zustände für das Array:
Alle Festplatten sind in Ordnung (dies ist der Ausgangszustand)
Ein Festplattenfehler ist aufgetreten, wird jedoch noch nicht erkannt
Es wurde ein Festplattenfehler festgestellt und eine Neuerstellung durchgeführt
Mehr als eine Festplatte ist ausgefallen - massiver Datenverlust!
Es folgt ein Markov-Kettendiagramm für das RAID5