Comment calculer la fiabilité RAID?

Les matrices de disques RAID (matrice redondante de disques indépendants) sont très courantes dans les infrastructures de données critiques. Le principe de base du RAID est d'ajouter une redondance des données de sorte qu'aucune perte de données majeure ne se produise lorsqu'un secteur défectueux apparaît, ou même lorsqu'un disque entier tombe en panne.

La question est: Quelle est la fiabilité des RAID?

Si vous concevez un système informatique qui doit être hautement fiable, ce document est pour vous.

Voici une explication et un exemple concernant les calculs de fiabilité RAID:

Un moyen pratique de calculer la fiabilité RAID consiste à utiliser des chaînes de Markov. Le module BQRs RBD Markov est idéal pour de tels calculs.

Afin de calculer la fiabilité RAID, certains paramètres sont nécessaires:

  • Taux de panne de disque: les valeurs habituelles sont comprises entre 0,5 et 2 pannes par million d'heures, selon la taille et la qualité du disque dur / SSD. Pour les calculs suivants, une défaillance par million d'heures a été supposée.
  • Temps de détection des pannes: temps jusqu'à ce qu'un mauvais bloc soit détecté. Les blocs défectueux sont détectés dans deux cas:
    • Le bloc est lu en raison de la demande de l'utilisateur
    • Le bloc est lu périodiquement en raison d'un test programmé RAID (nettoyage)

Un temps de détection de 1 semaine est supposé pour le calcul suivant.

  • Temps de reconstruction: temps de reconstruction du disque défectueux sur un disque de rechange ou de remplacement. Le temps de reconstruction dépend de la quantité de données sur le disque défaillant, ainsi que de la charge sur la matrice lors de la reconstruction. La reconstruction des données à l'aide de calculs de parité nécessite la lecture des données de tous les disques de la matrice, par conséquent, le temps de reconstruction dépend également du nombre de disques dans la matrice.

Un temps de reconstruction d'une semaine est supposé pour le calcul suivant. Les temps de reconstruction sont généralement plus rapides, surtout si la demande de données est faible parallèlement au processus de reconstruction.

Remarque: les disques ont également un taux pour les lectures de mauvais bits. Par exemple: si les disques RAID ont un taux de 1 mauvais bit lu pour 1015 bits, et une reconstruction implique la lecture de 1014 bits, il y a en moyenne 0,1 bits reconstruits incorrects après la reconstruction.

Exemple: RAID 5

Considérez une matrice avec 10 disques et une configuration RAID 5. Il existe quatre états possibles pour le tableau:

Tous les disques sont bons (c'est l'état initial)
Une panne de disque s'est produite mais n'est pas encore détectée
Une panne de disque a été détectée et une reconstruction a lieu
Plus d'un disque est tombé en panne - perte massive de données!

Voici un diagramme de chaîne de Markov pour le RAID5

Les taux de transition pour la chaîne de Markov sont:

 

En utilisant les taux de transition, la fiabilité RAID 5 a été calculée pour différentes durées de mission:

 

Conclusions

La fiabilité du RAID dépend de la configuration RAID spécifique, du nombre de disques, du taux de défaillance, du temps de reconstruction et également du temps de détection.

Les résultats de fiabilité décrits ci-dessus peuvent ne pas être suffisants pour les systèmes critiques. Dans de nombreux cas, des baies plus petites (moins de 10 disques durs) sont recommandées.

Le logiciel RBD de BQR peut vous aider à calculer la fiabilité de diverses configurations RAID ainsi que la disponibilité d'un système informatique et informatique complexe.

 

BQR peut vous aider à analyser votre système RAID