Errori di causa comune, più comuni di quanto si possa pensare

 

introduzione

I sistemi critici sono generalmente progettati con elevata ridondanza e tolleranza agli errori al fine di prevenire guasti critici. Il più grande nemico della ridondanza è Common Cause Failure (CCF).
CCF è definito come guasti di più elementi, che altrimenti verrebbero considerati indipendenti l'uno dall'altro, risultanti da una singola causa [1].

Gli eventi CCF sono generalmente rari, ma il loro effetto può essere grave. Pertanto, l'analisi della causa comune è una parte importante dell'analisi della sicurezza ed è richiesta in alcune norme, ad esempio la sicurezza ferroviaria [2].
I CCF sono più comuni di quanto si possa pensare. Di seguito sono riportati alcuni eventi di causa comuni che compaiono in molti sistemi:

  • Un'interruzione dell'alimentazione può causare l'arresto di molti sottosistemi elettrici. Sebbene i sottosistemi non si siano guastati, non sono in grado di soddisfare le funzionalità richieste e pertanto devono essere considerati non riusciti per l'analisi.
  • Un guasto di uno switch di comunicazione di rete può impedire a molti sottosistemi di inviare / ricevere informazioni critiche. Ciò può rendere inutili i sottosistemi.

 

Analisi

In casi semplici è possibile rendere conto di CCF utilizzando porte standard Fault Tree Analysis (FTA), ma in altri casi è necessaria un'analisi più complessa.

Caso semplice

Considerare un alimentatore che alimenta un server e uno switch di comunicazione di rete. Il server e lo switch sono necessari per il funzionamento del sistema. Il fallimento di uno di essi causerà il malfunzionamento del sistema. Chiaramente, un guasto all'alimentatore provocherà anche un guasto del sistema, pertanto è possibile utilizzare il seguente semplice albero dei guasti:

Screenshot of Fault Tree Analysis software

Caso non così semplice

Si consideri il caso di due server e due dispositivi di archiviazione dei dati in due siti separati (un server e un dispositivo di archiviazione in ciascun sito).
La comunicazione esiste tra i due siti e si rispecchiano a vicenda:

Il sistema può funzionare nei seguenti casi:

  • Server 1 e Storage 1 sono attivi
  • Server 2 e Storage 2 sono attivi
  • Server 1 e Storage 2 sono attivi
  • Server 2 e Storage 1 sono attivi

Ignorando le fonti di alimentazione, anche in questo caso è possibile utilizzare un semplice albero dei guasti:

Screenshot of Fault Tree Analysis software

Tuttavia, un errore di Power 1 causa il fallimento del Server 1 e dell'archiviazione 1 e un errore di Power 2 causa il fallimento del Server 2 e dell'archiviazione 2. L'albero dei guasti che tiene conto delle fonti di energia è il seguente:

Screenshot of Fault Tree Analysis software

* Immagini dell'albero dei guasti prese da Software di analisi dell'albero dei guasti di BQR.

 

Si noti che l'evento "Interruzione dell'alimentazione 1" appare due volte nel diagramma. Di solito ogni nodo finale nel diagramma rappresenta un evento indipendente, ma in questo caso i due eventi "Power 1 failure" rappresentano lo stesso evento. Allo stesso modo, "Power 2 failure" appare due volte nel diagramma.

Ci sono 6 blocchi nel sistema, quindi ci sono 64 possibili stati del sistema. Dei 64 stati, 47 stati sono definiti come errori di sistema.
Per calcolare la probabilità di fallimento di questo caso, è necessario eseguire un processo di disgiunzione [3].

Il software FTA di BQR tiene conto dei CCF e dei CCF nidificati (causa comune che appare all'interno di un'altra causa comune).
Per ulteriori informazioni sul software BQR e / o sui servizi professionali, contattare info@bqr.com.

 

Bibliografia

[1] IEC 60050, vocabolario elettrotecnico internazionale.
[2] EN 50126: 2017 Applicazioni ferroviarie. Specifiche e dimostrazione di affidabilità, disponibilità, manutenibilità e sicurezza (RAMS). Processo RAMS generico.
[3] IEC 61025: 2007 Analisi dell'albero dei guasti (FTA).