Häufige Ursachen Fehler, häufiger als Sie vielleicht denken

 

Einführung

Kritische Systeme sind normalerweise mit hoher Redundanz und Fehlertoleranz ausgelegt, um kritische Fehler zu vermeiden. Der größte Feind der Redundanz ist Common Cause Failure (CCF).
CCF ist definiert als Fehler mehrerer Elemente, die andernfalls als unabhängig voneinander angesehen würden und aus einer einzigen Ursache resultieren [1].

CCF-Ereignisse sind normalerweise selten, ihre Auswirkungen können jedoch schwerwiegend sein. Daher ist die Analyse der gemeinsamen Ursachen ein wichtiger Bestandteil der Sicherheitsanalyse und in bestimmten Normen erforderlich, z. B. in der Eisenbahnsicherheit [2].
CCFs sind häufiger als Sie vielleicht denken. Im Folgenden sind einige häufige Ursachen aufgeführt, die in vielen Systemen auftreten:

  • Ein Stromausfall kann zum Abschalten vieler elektrischer Teilsysteme führen. Obwohl die Subsysteme selbst nicht ausgefallen sind, können sie ihre erforderliche Funktionalität nicht erfüllen und sollten daher für die Analyse als ausgefallen betrachtet werden.
  • Ein Ausfall eines Netzwerkkommunikationsschalters kann verhindern, dass viele Subsysteme kritische Informationen senden / empfangen. Dies kann die Subsysteme unbrauchbar machen.

 

Analyse

In einfachen Fällen ist es möglich, CCF mithilfe von Standard-FTA-Gattern (Fault Tree Analysis) zu berücksichtigen. In anderen Fällen ist jedoch eine komplexere Analyse erforderlich.

Einfacher Fall

Stellen Sie sich ein Netzteil vor, das einen Server und einen Netzwerkkommunikationsschalter speist. Der Server und der Switch werden für den Systembetrieb benötigt. Ein Ausfall von beiden führt zum Systemausfall. Ein Ausfall der Stromversorgung führt natürlich auch zu einem Systemausfall. Daher kann der folgende einfache Fehlerbaum verwendet werden:

Screenshot of Fault Tree Analysis software

Nicht so einfacher Fall

Betrachten Sie den Fall von zwei Servern und zwei Datenspeichergeräten an zwei separaten Standorten (ein Server und ein Speichergerät an jedem Standort).
Zwischen den beiden Standorten besteht eine Kommunikation, die sich gegenseitig widerspiegelt:

Das System kann in folgenden Fällen funktionieren:

  • Server 1 und Speicher 1 sind aktiv
  • Server 2 und Speicher 2 sind aktiv
  • Server 1 und Speicher 2 sind aktiv
  • Server 2 und Speicher 1 sind aktiv

Wenn Sie die Stromquellen ignorieren, kann auch in diesem Fall ein einfacher Fehlerbaum verwendet werden:

Screenshot of Fault Tree Analysis software

Ein Ausfall von Power 1 führt jedoch zum Ausfall von Server 1 und Speicher 1, und ein Ausfall von Power 2 führt zum Ausfall von Server 2 und Speicher 2. Der Fehlerbaum, der die Stromquellen berücksichtigt, lautet wie folgt:

Screenshot of Fault Tree Analysis software

* Fehlerbaumbilder aus BQRs Software zur Fehlerbaumanalyse.

 

Beachten Sie, dass das Ereignis „Stromausfall 1“ im Diagramm zweimal angezeigt wird. Normalerweise stellt jeder Endknoten im Diagramm ein unabhängiges Ereignis dar. In diesem Fall stellen die beiden Ereignisse „Power 1-Fehler“ dasselbe Ereignis dar. In ähnlicher Weise wird "Power 2-Fehler" im Diagramm zweimal angezeigt.

Es gibt 6 Blöcke im System, daher gibt es 64 mögliche Systemzustände. Von den 64 Zuständen sind 47 Zustände als Systemfehler definiert.
Um die Ausfallwahrscheinlichkeit dieses Falles zu berechnen, muss ein Disjunktionsprozess durchgeführt werden [3].

Die FTA-Software von BQR berücksichtigt sowohl CCFs als auch verschachtelte CCFs (häufige Ursache, die in einer anderen häufigen Ursache auftritt).
Für weitere Informationen zu BQR-Software und / oder professionellen Diensten wenden Sie sich bitte an info@bqr.com.

 

Literaturverzeichnis

[1] IEC 60050, International Electrotechnical Vocabulary.
[2] EN 50126: 2017 Eisenbahnanwendungen. Spezifikation und Nachweis von Zuverlässigkeit, Verfügbarkeit, Wartbarkeit und Sicherheit (RAMS). Generischer RAMS-Prozess.
[3] IEC 61025: 2007 Fehlerbaumanalyse (FTA).