Come calcolare l'affidabilità RAID?

Gli array di dischi RAID (array ridondanti di dischi indipendenti) sono molto comuni nelle infrastrutture di dati critici. Il principio di base del RAID è quello di aggiungere ridondanza dei dati in modo tale che non si verifichino perdite di dati importanti quando si verifica un settore danneggiato o anche quando un intero disco si guasta.

La domanda è: quanto sono affidabili i RAID?

Se stai progettando un sistema IT che deve essere altamente affidabile, questo documento è per te.

Di seguito sono riportati una spiegazione e un esempio relativi ai calcoli dell'affidabilità RAID:

Un modo conveniente per calcolare l'affidabilità RAID è usare le catene di Markov. Il modulo BQRs RBD Markov è ideale per tali calcoli.

Per calcolare l'affidabilità RAID sono necessari alcuni parametri:

  • Tasso di errore del disco: i valori usuali sono compresi tra 0,5 e 2 errori per milione di ore, a seconda delle dimensioni e della qualità dell'HDD / SSD. Per i seguenti calcoli è stato ipotizzato 1 guasto per milione di ore.
  • Tempo di rilevamento guasto: tempo fino al rilevamento di un blocco danneggiato. I blocchi danneggiati vengono rilevati in due casi:
    • Il blocco viene letto a causa della richiesta dell'utente
    • Il blocco viene letto periodicamente a causa del test RAID programmato (scrubbing)

Si presume un tempo di rilevamento di 1 settimana per il seguente calcolo.

  • Tempo di ricostruzione: il tempo necessario per ricostruire il disco guasto su un disco di riserva o sostitutivo. Il tempo di ricostruzione dipende dalla quantità di dati nel disco guasto, nonché dal carico sull'array durante la ricostruzione. La ricostruzione dei dati utilizzando i calcoli di parità richiede la lettura dei dati da tutti i dischi dell'array, quindi il tempo di ricostruzione dipende anche dal numero di dischi nell'array.

Per il seguente calcolo si presume un tempo di ricostruzione di 1 settimana. Di solito i tempi di ricostruzione sono più rapidi, soprattutto se la richiesta di dati è bassa parallelamente al processo di ricostruzione.

Nota: i dischi hanno anche un tasso di letture di bit non validi. Ad esempio: se i dischi RAID hanno una velocità di 1 bit non valido letto ogni 1015 bit e una ricostruzione implica la lettura di 1014 bit, ci sono in media 0.1 bit ricostruiti errati dopo la ricostruzione.

Esempio: RAID 5

Considera un array con 10 dischi e una configurazione RAID 5. Esistono quattro stati possibili per l'array:

Tutti i dischi sono buoni (questo è lo stato iniziale)
Si è verificato un errore del disco ma non è stato ancora rilevato
È stato rilevato un errore del disco e viene eseguita una ricostruzione
Più di un disco è guasto: massiccia perdita di dati!

Di seguito è riportato un diagramma della catena di Markov per RAID5

I tassi di transizione per la catena di Markov sono:

 

Utilizzando le velocità di transizione, l'affidabilità RAID 5 è stata calcolata per vari tempi di missione:

 

conclusioni

L'affidabilità RAID dipende dalla configurazione RAID specifica, dal numero di unità, dal tasso di errore, dal tempo di ricostruzione e anche dal tempo di rilevamento.

I risultati di affidabilità sopra descritti potrebbero non essere sufficienti per i sistemi critici. In molti casi si consigliano array più piccoli (meno di 10 HDD).

Il software RBD di BQR può aiutarti a calcolare l'affidabilità di varie configurazioni RAID e la disponibilità di sistemi IT e informatici complessi.

 

BQR può aiutarti ad analizzare il tuo sistema RAID