Wie berechnet man die RAID-Zuverlässigkeit?

RAID-Festplattenarrays (Redundant Array of Independent Disks) sind in kritischen Dateninfrastrukturen weit verbreitet. Das Grundprinzip von RAID besteht darin, Datenredundanz hinzuzufügen, sodass kein größerer Datenverlust auftritt, wenn ein fehlerhafter Sektor auftritt oder sogar wenn eine ganze Festplatte ausfällt.

Die Frage ist: Wie zuverlässig sind RAIDs?

Wenn Sie ein IT-System entwerfen, das äußerst zuverlässig sein muss, ist dieses Dokument genau das Richtige für Sie.

Im Folgenden finden Sie eine Erklärung und ein Beispiel für die Berechnung der RAID-Zuverlässigkeit:

Eine bequeme Methode zur Berechnung der RAID-Zuverlässigkeit ist die Verwendung von Markov-Ketten. Das RBD Markov-Modul von BQRs ist ideal für solche Berechnungen.

Zur Berechnung der RAID-Zuverlässigkeit sind einige Parameter erforderlich:

  • Festplattenfehlerrate: Die üblichen Werte liegen je nach Größe und Qualität der Festplatte / SSD zwischen 0,5 und 2 Ausfällen pro Million Stunden. Für die folgenden Berechnungen wurde 1 Fehler pro Million Stunden angenommen.
  • Fehlererkennungszeit: Zeit, bis ein fehlerhafter Block erkannt wird. In zwei Fällen werden fehlerhafte Blöcke erkannt:
    • Der Block wird aufgrund der Benutzeranforderung gelesen
    • Der Block wird aufgrund eines geplanten RAID-Tests (Scrubbing) regelmäßig gelesen.

Für die folgende Berechnung wird eine Erkennungszeit von 1 Woche angenommen.

  • Wiederherstellungszeit: Die Zeit zum Rekonstruieren der ausgefallenen Festplatte auf eine Ersatz- oder Ersatzfestplatte. Die Rekonstruktionszeit hängt von der Datenmenge auf der ausgefallenen Festplatte sowie von der Belastung des Arrays während der Neuerstellung ab. Die Datenrekonstruktion unter Verwendung von Paritätsberechnungen erfordert das Lesen von Daten von allen Array-Platten. Daher hängt die Rekonstruktionszeit auch von der Anzahl der Platten im Array ab.

Für die folgende Berechnung wird eine Wiederherstellungszeit von 1 Woche angenommen. Normalerweise sind die Wiederherstellungszeiten schneller, insbesondere wenn parallel zum Wiederherstellungsprozess ein geringer Datenbedarf besteht.

Hinweis: Festplatten haben auch eine Rate für fehlerhafte Bitlesevorgänge. Beispiel: Wenn die RAID-Festplatten eine Rate von 1 Lesefehler pro 10 haben15 Bits, und eine Rekonstruktion beinhaltet das Lesen von 1014 Bits gibt es nach dem Wiederaufbau durchschnittlich 0,1 falsch rekonstruierte Bits.

Beispiel: RAID 5

Stellen Sie sich ein Array mit 10 Festplatten und einer RAID 5-Konfiguration vor. Es gibt vier mögliche Zustände für das Array:

Alle Festplatten sind in Ordnung (dies ist der Ausgangszustand)
Ein Festplattenfehler ist aufgetreten, wird jedoch noch nicht erkannt
Es wurde ein Festplattenfehler festgestellt und eine Neuerstellung durchgeführt
Mehr als eine Festplatte ist ausgefallen - massiver Datenverlust!

Es folgt ein Markov-Kettendiagramm für das RAID5

Übergangsraten für die Markov-Kette sind:

 

Unter Verwendung der Übergangsraten wurde die RAID 5-Zuverlässigkeit für verschiedene Missionszeiten berechnet:

 

Schlussfolgerungen

Die Zuverlässigkeit von RAID hängt von der spezifischen RAID-Konfiguration, der Anzahl der Laufwerke, der Ausfallrate, der Wiederherstellungszeit und auch von der Erkennungszeit ab.

Die oben beschriebenen Zuverlässigkeitsergebnisse sind für kritische Systeme möglicherweise nicht ausreichend. In vielen Fällen werden kleinere Arrays (weniger als 10 Festplatten) empfohlen.

Mit der RBD-Software von BQR können Sie die Zuverlässigkeit verschiedener RAID-Konfigurationen sowie die Verfügbarkeit komplexer IT- und Computersysteme berechnen.

 

BQR kann Ihnen bei der Analyse Ihres RAID-Systems helfen