Come calcolare l'affidabilità RAID?
Gli array di dischi RAID (array ridondanti di dischi indipendenti) sono molto comuni nelle infrastrutture di dati critici. Il principio di base del RAID è quello di aggiungere ridondanza dei dati in modo tale che non si verifichino perdite di dati importanti quando si verifica un settore danneggiato o anche quando un intero disco si guasta.
La domanda è: quanto sono affidabili i RAID?
Se stai progettando un sistema IT che deve essere altamente affidabile, questo documento è per te.
Di seguito sono riportati una spiegazione e un esempio relativi ai calcoli dell'affidabilità RAID:
Un modo conveniente per calcolare l'affidabilità RAID è usare le catene di Markov. Il modulo BQRs RBD Markov è ideale per tali calcoli.
Per calcolare l'affidabilità RAID sono necessari alcuni parametri:
- Tasso di errore del disco: i valori usuali sono compresi tra 0,5 e 2 errori per milione di ore, a seconda delle dimensioni e della qualità dell'HDD / SSD. Per i seguenti calcoli è stato ipotizzato 1 guasto per milione di ore.
- Tempo di rilevamento guasto: tempo fino al rilevamento di un blocco danneggiato. I blocchi danneggiati vengono rilevati in due casi:
- Il blocco viene letto a causa della richiesta dell'utente
- Il blocco viene letto periodicamente a causa del test RAID programmato (scrubbing)
Si presume un tempo di rilevamento di 1 settimana per il seguente calcolo.
- Tempo di ricostruzione: il tempo necessario per ricostruire il disco guasto su un disco di riserva o sostitutivo. Il tempo di ricostruzione dipende dalla quantità di dati nel disco guasto, nonché dal carico sull'array durante la ricostruzione. La ricostruzione dei dati utilizzando i calcoli di parità richiede la lettura dei dati da tutti i dischi dell'array, quindi il tempo di ricostruzione dipende anche dal numero di dischi nell'array.
Per il seguente calcolo si presume un tempo di ricostruzione di 1 settimana. Di solito i tempi di ricostruzione sono più rapidi, soprattutto se la richiesta di dati è bassa parallelamente al processo di ricostruzione.
Nota: i dischi hanno anche un tasso di letture di bit non validi. Ad esempio: se i dischi RAID hanno una velocità di 1 bit non valido letto ogni 1015 bit e una ricostruzione implica la lettura di 1014 bit, ci sono in media 0.1 bit ricostruiti errati dopo la ricostruzione.
Esempio: RAID 5
Considera un array con 10 dischi e una configurazione RAID 5. Esistono quattro stati possibili per l'array:
Tutti i dischi sono buoni (questo è lo stato iniziale)
Si è verificato un errore del disco ma non è stato ancora rilevato
È stato rilevato un errore del disco e viene eseguita una ricostruzione
Più di un disco è guasto: massiccia perdita di dati!
Di seguito è riportato un diagramma della catena di Markov per RAID5