Introducción a la tolerancia a fallos #

Las fallas parciales son una característica de los sistemas distribuidos.

¿Como diseñar los sistemas distribuidos para que se recuperen de este tipo de fallas?

Idealmente automáticamente y sin degradar la performance.

Tolerancia a fallas #

Relacionado con el concepto de dependable systems

Algunos terminos:

Es la probabilidad que el sistema este funcionando en cualquier momento.

La probabilidad que el sistema ejecute continuamente sin fallos.

No ocurre una catástrofe cuando eventualmente ocurre una falla.

Qué tan fácil es reparar el sistema ante una falla.

MTTF: Mean Time To Failure.

MTTR: Mean Time To Repair.

MTBF: Mean Time Between Failures ($MTTF + MTTR$)

Cuando el sistema no cumple con sus especificaciones.

La parte del estado de un sistema que puede producir una falla.

La causa de un error.

Un sistema tolerante a fallos es aquel que puede proveer sus servicios aún ante la existencia de fallas.

Las fallas se pueden clasificar en:

Clasificación:

Los modelos anteriores suponene que un proceso $P$ puede detectar que $Q$ se detuvo.

¿Cómo es posible esto?

Hay que diferenciar tipos de sistemas:

Asincrónico: no se puede suponer nada acerca de los tiempos de ejecución o de transferencia de mensajes.
Sincrónico: los tiempos de ejecución y de transmisión estan acotados.

Ninguno es un modelo realista.

En la práctica se asumen sistemas parcialmente sincrónicos:

En este contexto, las fallas de detención se pueden subclasificar:

La mejor manera de tolerar una falla es ocultarla mediante redundancia.

Tipos de redundancia:

Un ejemplo es la redundancia modular triple.