MTBF y MTTR explicados: las dos métricas que más dinero te cuestan

Una bomba de 30.000€ que falla cada 18 meses no es "cara". Lo caro son las 6 horas de parada cada vez que falla a las 3 de la mañana en mitad de un turno. La pieza es lo que paga la dirección financiera; el tiempo perdido es lo que paga producción, y nadie lo ve hasta que se suman las horas a final de año.

Aquí entran MTBF y MTTR. Las dos métricas que casi todo responsable de mantenimiento conoce de oídas, pocos calculan bien y casi nadie usa para tomar decisiones. La tesis de este artículo es simple: MTBF mide cada cuánto fallan tus equipos, MTTR mide cuánto tardas en arreglarlos. Las dos importan, se optimizan de forma distinta y se confunden constantemente.

MTBF: la métrica peor entendida

Mean Time Between Failures = tiempo total de operación / número de fallos.

Ejemplo trabajado: una bomba centrífuga de proceso opera 8.760 horas al año (24/7) y registra 3 fallos no planificados. Su MTBF es 8.760 / 3 = 2.920 horas, o aproximadamente 4 meses entre fallos. Suena razonable, hasta que te das cuenta de que esa bomba está en una línea de envasado que factura 4.000€/hora.

Errores típicos al calcular el MTBF:

Confundirlo con vida útil. El MTBF no te dice cuánto durará un equipo. Te dice el tiempo medio entre fallos durante su régimen normal. Una bomba con MTBF de 2.920 horas puede llevar 30 años en planta.
Contar parada planificada como fallo. Una sustitución programada de rodamientos no es un fallo. Si lo cuentas, tu MTBF se hunde y dejas de distinguir entre rotura imprevista y mantenimiento planificado.
Ventana de medición demasiado corta. Con menos de 3 meses de datos, el MTBF es ruido estadístico. Un equipo puede pasarse 6 semanas sin fallar y romperse dos veces en una semana sin que cambie nada estructural.

Qué se considera "bueno" según el tipo de equipo (rangos típicos en industria europea):

Bombas industriales centrífugas: MTBF entre 18 y 60 meses según tipo de fluido y carga.
Husillos de CNC: 5.000 a 15.000 horas de uso efectivo.
Motores de cintas transportadoras: 30.000 a 50.000 horas.
Sistemas hidráulicos: 10.000 a 20.000 horas dependiendo de la limpieza del aceite.

Cuándo el MTBF te engaña: equipos con modos de fallo no aleatorios. La norma ISO 14224 (taxonomía de datos de fiabilidad para industria de proceso) recomienda analizar la distribución de tiempos hasta fallo con Weibull. Si el parámetro de forma β > 1, el equipo entra en zona de desgaste y el MTBF subestima el riesgo: la probabilidad de fallo crece con cada hora que pasa, no es constante. En esos casos, mirar solo la media es tomar decisiones con los ojos cerrados.

MTTR: la métrica que controlas hoy

Mean Time To Repair = tiempo total de parada / número de reparaciones.

Pero ojo: el MTTR no es solo "tiempo de la llave inglesa". Incluye todo el ciclo desde que el equipo deja de producir hasta que vuelve a operar correctamente:

Detección — ¿cuánto tardas en saber que ha fallado?
Desplazamiento — técnico llegando al equipo.
Diagnóstico — identificar qué se ha roto y por qué.
Reparación — la intervención física.
Validación y arranque — pruebas, QA, vuelta a régimen.

En la mayoría de plantas, la reparación física es solo el 20% del MTTR. El otro 80% es logística.

Caso real (planta alimentaria belga, envasadora primaria): MTTR registrado de 4,5 horas. Descomposición típica: 30 min de detección (operario nota anomalía y avisa) + 90 min esperando técnico de guardia + 60 min de diagnóstico + 60 min de reparación efectiva + 30 min de validación y QA antes de retomar lote.

¿Qué cambió la planta? Tres acciones puntuales: sensores de vibración con alerta automática (detección a 10 min), kit de repuestos críticos pre-posicionado en planta (0 min de espera de logística) y operadores formados con un kit de diagnóstico básico (15 min de diagnóstico antes de que llegue el técnico). MTTR resultante: 2 horas.

Las palancas del MTTR, ordenadas por impacto típico: detección, repuestos, diagnóstico, formación del operador para primera intervención, instrucciones de reparación documentadas, validación.

Como referencia: MTTR de 1 a 4 horas es habitual en logística con guardia interna. En industria pesada se sitúa entre 2 y 8 horas. Los equipos de mantenimiento de top quartile mantienen MTTR por debajo de 2 horas en sus activos críticos.

Disponibilidad: la métrica que une las dos

La disponibilidad operativa combina ambas:

Disponibilidad = MTBF / (MTBF + MTTR)

Volvamos a la bomba: MTBF de 2.920 horas y MTTR de 4 horas → 2.920 / 2.924 = 99,86%.

Compáralo con la misma bomba pero con MTTR de 12 horas (sin sensorización ni repuestos): 2.920 / 2.932 = 99,59%. Parece poca diferencia. Sobre 8.760 horas anuales, son 24 horas más de parada al año, alrededor de 96.000€ de producción perdida en una línea que factura 4.000€/h.

Lo importante: duplicar el MTBF y dividir el MTTR por dos te dan ganancias parecidas en disponibilidad. Por eso los programas de fiabilidad serios atacan ambos frentes a la vez.

Benchmarks corporativos típicos:

99,5% — habitual en plantas con mantenimiento básico estructurado.
99,9% — excelente, exige programa de fiabilidad maduro.
99,99% — raro y caro, normalmente solo en sectores con redundancia (refino, generación eléctrica).

Cómo medir esto en tu planta

La única fuente práctica es un GMAO (sistema de gestión de mantenimiento asistido por ordenador). Lo que tienes que registrar en cada evento:

Timestamp de detección y de retorno a producción.
Tipo de fallo (mecánico, eléctrico, proceso, operador).
ID del equipo y subcomponente afectado.
Duración de cada fase (detección, desplazamiento, diagnóstico, reparación, validación).
Repuestos utilizados.

Necesitas mínimo 12 meses de datos limpios para obtener un MTBF estadísticamente significativo en activos con MTBF de meses. Para equipos con MTBF de años, el horizonte se amplía y conviene apoyarse en datos de población (varias unidades del mismo modelo).

Problemas de calidad de dato más comunes:

Los técnicos no registran con precisión: "se arregló" sin descomposición temporal.
"Tiempo de parada" se atribuye mal a setup o cambio de formato cuando en realidad fue avería.
Múltiples fallos durante un mismo evento se anotan como uno.
La detección no se cronometra: solo se anota la hora a la que llegó el técnico.

Recomendación: antes de fiarte de tus números, haz una auditoría de datos de 1 mes. Audita 20-30 eventos contra registros reales (logs SCADA, partes de turno) y verás dónde se rompe la cadena.

El marco IEC 60300-3-1 (gestión de la confiabilidad) define cómo estructurar este proceso de captura de datos para que sea auditable.

Mejorar MTBF: el playbook en 4 pasos

Análisis de modos de fallo (FMEA-light). Para los 5 activos más críticos, lista los 3 modos de fallo más frecuentes en los últimos 12 meses. No hace falta un FMEA completo de manual; con los 3 modos top de cada activo cubres el 80% de los eventos.
Causa raíz. Para cada modo, identifica la causa: ¿desgaste de rodamiento por mala lubricación? ¿pico eléctrico recurrente? ¿error operativo? ¿contaminación del fluido? Sin causa raíz, cualquier intervención es lotería.
Intervención dirigida. Según la causa: mejora de diseño (rodamiento de mejor calidad, sello mejorado), mejora de proceso (revisar plan de lubricación, instalar variador para eliminar arranques bruscos), monitorización (sensor de vibración, termografía), o formación del operador.
Mide antes y después en ventana de 6 meses. Sin medición no hay mejora demostrable.

Ganancia esperada en programas bien ejecutados: +30% a +50% de MTBF en 12 meses sobre los activos críticos atacados. No es magia: es disciplina sobre los 5 equipos que más te cuestan.

Mejorar MTTR: el playbook en 4 pasos

Descompón tu MTTR actual en sus 5 fases (detección, desplazamiento, diagnóstico, reparación, validación). Sin descomposición no sabes dónde atacar.
Identifica el tramo más largo. En el 80% de casos es repuestos (logística) o diagnóstico (no se sabe qué se ha roto). La reparación física suele ser la fase más corta.
Intervención dirigida. Si el cuello de botella es detección: monitorización de condición. Si son repuestos: kit en planta de los 20 SKUs más críticos. Si es diagnóstico: formación del operador y procedimientos documentados (one-page playbooks por modo de fallo). Si es validación: checklist de arranque.
Mide MTTR por evento, no solo la media. Una media de 2 horas con desviación estándar de 4 horas es peor que media de 3 horas con desviación de 30 minutos: la primera tiene eventos catastróficos que distorsionan el negocio.

Quick wins: una reducción del 50% del MTTR en 3 a 6 meses es habitual con esfuerzo focalizado, sobre todo cuando se ataca el tramo de logística de repuestos.

En resumen

Tres acciones concretas para tu próximo trimestre: registra datos limpios durante 12 meses con descomposición de fases, ataca MTBF en tus 5 activos más críticos con FMEA-light + causa raíz, y ataca MTTR descomponiéndolo y eliminando la fase más larga (casi siempre repuestos o detección).

Si quieres una segunda opinión sobre tus números actuales, en Orca Industry ofrecemos auditorías de fiabilidad que cruzan tus datos GMAO con benchmarks por sector y proponemos un plan a 12 meses con MTBF y MTTR objetivo. Conoce nuestro servicio de mantenimiento predictivo o nuestra respuesta de mantenimiento correctivo 24/7, y si quieres una auditoría sin compromiso, escríbenos desde la página de contacto.

MTBF y MTTR explicados: las dos métricas que más dinero te cuestan

MTBF y MTTR explicados: las dos métricas que más dinero te cuestan

MTBF: la métrica peor entendida

MTTR: la métrica que controlas hoy

Disponibilidad: la métrica que une las dos

Cómo medir esto en tu planta

Mejorar MTBF: el playbook en 4 pasos

Mejorar MTTR: el playbook en 4 pasos

En resumen

¿Quieres aplicar esto en tu planta?