Redundancia: más no siempre es más seguro

Los análisis de seguridad son fundamentales para el diseño y la implementación de sistemas seguros, específicamente en industrias donde la falla puede resultar en efectos severos (aeroespacial, ferroviario, médico, petróleo y gas).
En muchos casos, la cura 'mágica' para la seguridad es la redundancia, por ejemplo:

  • Fuentes de alimentación de respaldo (UPS y generadores)
  • Redes de comunicación con rutas redundantes
  • Sistemas de frenos redundantes
  • Motores redundantes

Sin embargo, existen algunas dificultades para agregar muchas redundancias:

Costo:

Más unidades significa un mayor costo de adquisición (atribuido a CAPEX).
Además, se producirán más fallas unitarias en el campo, por lo que el costo de mantenimiento también se disparará (atribuido al OPEX).

Fallos de causa común:

Las fallas de causa común son modos de falla que no son independientes de las fallas de otros elementos.
ejemplos:

  • Si se produce un cortocircuito en una fuente de alimentación, puede provocar que otros sistemas fallen a menos que esté protegido por un fusible
  • Si un motor falla y la carcasa no contiene el daño interno, los objetos son expulsados del motor y pueden causar la falla de los sistemas cercanos.

Una forma de reducir las causas comunes es utilizar diferentes tipos de unidades redundantes (como se explica en el “Manual de árbol de fallas con aplicaciones aeroespaciales” de la NASA [1]).

A continuación se muestran dos ejemplos interesantes del campo de la aviación:

1. Boeing KC-46 Pegasus [2]

En julio de 2014, Boeing registró un cargo antes de impuestos de $272 millones para cubrir un rediseño del cableado del Boeing KC-46 Pegasus. Se encontró que 5-10% de los paquetes de cableado no tenían suficiente distancia de separación, o no estaban debidamente blindados para cumplir con el requisito de la Fuerza Aérea de cableado redundante doble o triple para algunos sistemas de misión.
La razón fundamental para exigir la separación entre el cableado redundante es evitar una falla de causa común. Suponga que un objeto suelto corta un cable, si el cable redundante está cerca, también tiene una alta probabilidad de cortarse.

 

2. ETOPS

ETOPS son las siglas de Extended Operations. En el pasado, los aviones de 4 motores se usaban para vuelos de largo alcance, pero hoy los aviones de dos motores pueden realizar vuelos similares. Parte de la razón es la alta confiabilidad de las centrales eléctricas modernas.
A continuación se muestra un análisis utilizando el software Fault Tree Analysis (FTA) de BQR.

La probabilidad de que el motor se apague en vuelo (IFSD) es de aproximadamente 2 · 10-6 por hora de vuelo para una central eléctrica moderna PW4000 [3] (a modo de comparación, en 1952 la probabilidad IFSD por hora de vuelo era de 2,5 · 10-4 para motores de pistón [4]).
La FAA exige una probabilidad de falla catastrófica menor que 10-9 por hora de vuelo para un avión de cercanías [5].
Suponiendo que un solo motor es suficiente durante el vuelo, un análisis simple muestra que más motores producen un vuelo más seguro:

Numero de motores Probabilidad de todas las fallas del motor por hora de vuelo
1 2 · 10-6
1 4 · 10-12
1 8 · 10-18
1 1,6 · 10-23

 

Sin embargo, si existe una causa común, la situación es diferente:
Mientras se realizan pruebas de falla del motor (ver película [6]) para asegurar que los escombros no pongan en peligro los sistemas cercanos, considere el caso donde hay una probabilidad de 0.015% * de que una sola falla del motor genere una falla catastrófica de causa común. A continuación se muestran los diagramas de árbol de fallas para los casos de 2, 3 y 4 motores:

2 motores

Screenshot of Fault Tree Analysis software

3 motores

Screenshot of Fault Tree Analysis software

4 motores

Screenshot of Fault Tree Analysis software

Al comparar las tres cifras de FTA, se encuentra que 2 motores son más seguros que 3 o 4 motores, ¡y la caja de 4 motores no cumple con los requisitos de la FAA!
Este resultado no trivial muestra la importancia de tener en cuenta las fallas de causa común en los análisis del árbol de fallas. Este análisis es necesario como parte de la evaluación de la seguridad de los sistemas de a bordo civiles [7].

 

* El valor de 0.015% se eligió solo con fines de demostración.

BQR proporciona software y servicios profesionales para análisis de seguridad, FMEA / FMECA y FTA complejo que incluye causas comunes y causas comunes anidadas (eventos de causa común cuyos subárboles incluyen causas comunes adicionales).

Referencias:

[1] Manual del árbol de fallas con aplicaciones aeroespaciales, NASA, (2002)
[2] Wikipedia, https://en.wikipedia.org/wiki/Boeing_KC-46_Pegasus
[3] OACI, taller EDTO, https://www.icao.int/SAM/Documents/2014-EDTO/EDTO%20Module%20%204%20%E2%80%93%20Aircraft%20certification%20considerations.pdf
[4] Los motores giran o los pasajeros nadan: un estudio de caso de cómo ETOPS mejoró la seguridad y la economía en la aviación, J. Angelo DeSantis (2013), https://scholar.smu.edu/cgi/viewcontent.cgi?article=1305&context=jalc
[5] ANÁLISIS Y EVALUACIÓN DE LA SEGURIDAD DEL SISTEMA PARA AVIONES DE LA PARTE 23, FAA, (2011), https://www.faa.gov/documentLibrary/media/Advisory_Circular/AC%2023.1309-1E.pdf
[6] Prueba A380 Blade Off, Youtube (2006), https://www.youtube.com/watch?v=j973645y5AA
[7] ARP 4761, DIRECTRICES Y MÉTODOS PARA REALIZAR EL PROCESO DE EVALUACIÓN DE LA SEGURIDAD EN SISTEMAS Y EQUIPOS AÉREOS CIVILES