RAID 신뢰성을 계산하는 방법

RAID (Redundant Array of Independent Disks) 디스크 배열은 중요한 데이터 인프라에서 매우 일반적입니다. RAID의 기본 원칙은 불량 섹터가 나타나거나 전체 디스크에 고장이 발생하더라도 큰 데이터 손실이 발생하지 않도록 데이터 이중화를 추가하는 것입니다.

질문 : RAID의 신뢰성은 어느 정도입니까?

신뢰성이 높은 IT 시스템을 설계하는 경우 본 백서는 귀하를 위한 것입니다.

다음은 RAID 신뢰성 계산에 대한 설명과 예입니다.

RAID 신뢰성을 계산하는 편리한 방법은 Markov 체인을 사용하는 것입니다. BQR RBD Markov 모듈은 이러한 계산에 이상적입니다.

RAID 신뢰성을 계산하려면 몇 가지 매개 변수가 필요합니다.

  • 디스크 고장률 : 일반적인 값은 HDD / SSD 크기 및 품질에 따라 백만 시간당 0.5-2회 고장입니다. 다음 계산에서는 백만 시간당 1회의 고장이 가정되었습니다.
  • 고장 감지 시간 : 불량 블록이 감지될 때까지의 시간입니다. 불량 블록은 다음 두 가지 경우에 감지됩니다.
    • 사용자 요구로 인해 블록을 읽음
    • RAID 예약된 테스트 (스크러빙)로 인해 블록을 주기적으로 읽습니다.

다음 계산에서는 감지 시간을 1 주일로 가정합니다.

  • 재구성 시간 : 고장이 발생한 디스크를 예비 또는 교체 디스크에 재구성하는데 걸리는 시간입니다. 재구성 시간은 고장이 발생한 디스크의 데이터 양과 재구성 중 배열의 부하에 따라 달라집니다. 패리티 계산을 사용하여 데이터를 재구성하려면 모든 배열 디스크에서 데이터를 읽어야하므로 재구성 시간은 배열의 디스크 수에 따라 달라집니다.

다음 계산에서는 재구축 시간을 1주로 가정합니다. 일반적으로 재구축 시간이 더 빠릅니다. 특히 재구축 프로세스와 동시에 데이터 요구량이 적은 경우 더욱 그렇습니다.

참고 : 디스크에는 불량 비트 읽기 비율도 있습니다. 예 : RAID 디스크의 속도가 1015 비트 당 불량 비트 1개인 경우, 재구성에 1014 비트가 포함되며, 재구성 후 평균 0.1 잘못 재구성 된 비트가 존재합니다.

예 : RAID 5

10개의 디스크와 RAID 5 구성이 있는 배열을 고려하십시오. 배열에 대해 가능한 4가지 상태가 있습니다.

모든 디스크가 정상입니다 (초기 상태).
디스크 오류가 발생했지만 아직 감지되지 않았습니다.
디스크 오류가 감지되고 재구축이 수행됩니다.
하나 이상의 디스크에 오류가 발생했습니다 – 엄청난 데이터 손실!

다음은 RAID5에 대한 Markov 체인 다이어그램입니다.

Markov 체인의 전환율은 다음과 같습니다.

 

전환 속도를 사용하여 다양한 미션 시간에 대해 RAID 5 신뢰성을 계산했습니다.

 

결론

RAID 안정성은 특정 RAID 구성, 드라이브 수, 고장률, 재구축 시간 및 감지 시간에 따라 달라집니다.

위에서 설명한 신뢰성 결과는 중요한 시스템에 충분하지 않을 수 있습니다. 대부분의 경우 더 작은 배열 (HDD 10 개 미만)을 권장합니다.

BQR의 RBD 소프트웨어는 복잡한 IT 및 컴퓨팅 시스템의 가용성뿐만 아니라 다양한 RAID 구성의 신뢰성을 계산하는데 도움이 됩니다.

 

BQR은 RAID 시스템 분석에 도움이 될 수 있습니다.