¿Cómo calcular la confiabilidad RAID?

Las matrices de discos RAID (matriz redundante de discos independientes) son muy comunes en la infraestructura de datos críticos. El principio básico de RAID es agregar redundancia de datos de modo que no se produzca una pérdida de datos importante cuando aparece un sector defectuoso, o incluso cuando falla un disco completo.

La pregunta es: ¿Qué tan confiables son los RAID?

Si está diseñando un sistema de TI que necesita ser altamente confiable, este documento es para usted.

A continuación se incluye una explicación y un ejemplo con respecto a los cálculos de confiabilidad RAID:

Una forma conveniente de calcular la confiabilidad de RAID es mediante el uso de cadenas de Markov. El módulo BQRs RBD Markov es ideal para tales cálculos.

Para calcular la confiabilidad RAID se requieren algunos parámetros:

  • Tasa de falla del disco: los valores habituales son entre 0.5 y 2 fallas por millón de horas, dependiendo del tamaño y la calidad del HDD / SSD. Para los siguientes cálculos se supuso 1 falla por millón de horas.
  • Tiempo de detección de falla: tiempo hasta que se detecta un bloque defectuoso. Se detectan bloques defectuosos en dos casos:
    • El bloque se lee debido a la demanda del usuario.
    • El bloque se lee periódicamente debido a la prueba programada RAID (depuración)

Se supone un tiempo de detección de 1 semana para el siguiente cálculo.

  • Tiempo de reconstrucción: el tiempo para reconstruir el disco fallido en un disco de repuesto o repuesto. El tiempo de reconstrucción depende de la cantidad de datos en el disco fallido, así como de la carga en la matriz durante la reconstrucción. La reconstrucción de datos utilizando cálculos de paridad requiere la lectura de datos de todos los discos de la matriz, por lo tanto, el tiempo de reconstrucción depende también del número de discos en la matriz.

Se supone un tiempo de reconstrucción de 1 semana para el siguiente cálculo. Por lo general, los tiempos de reconstrucción son más rápidos, especialmente si hay una baja demanda de datos en paralelo al proceso de reconstrucción.

Nota: Los discos también tienen una tasa de lecturas de bits incorrectos. Por ejemplo: si los discos RAID tienen una tasa de 1 bit malo leído por 1015 bits, y una reconstrucción implica leer 1014 bits, hay un promedio de 0.1 bits reconstruidos incorrectos después de la reconstrucción.

Ejemplo: RAID 5

Considere una matriz con 10 discos y una configuración RAID 5. Hay cuatro estados posibles para la matriz:

Todos los discos son buenos (este es el estado inicial)
Se produjo un error de disco pero aún no se detecta
Se detectó una falla de disco y se lleva a cabo una reconstrucción
Ha fallado más de un disco: ¡pérdida masiva de datos!

El siguiente es un diagrama de cadena de Markov para el RAID5

Las tasas de transición para la cadena de Markov son:

 

Usando las tasas de transición, se calculó la confiabilidad de RAID 5 para varios tiempos de misión:

 

Conclusiones

La confiabilidad de RAID depende de la configuración de RAID específica, la cantidad de unidades, la tasa de falla, el tiempo de reconstrucción y también el tiempo de detección.

Los resultados de fiabilidad descritos anteriormente pueden no ser suficientes para sistemas críticos. En muchos casos, se recomiendan matrices más pequeñas (menos de 10 discos duros).

El software RBD de BQR puede ayudarlo a calcular la confiabilidad de varias configuraciones RAID, así como la disponibilidad de sistemas informáticos y informáticos complejos.

 

BQR puede ayudarlo a analizar su sistema RAID