DORA-4: Tempo di Ripristino del Servizio

Descrizione

Il tempo di ripristino del servizio (Mean Time To Recovery - MTTR) misura quanto tempo ci vuole per recuperare da un incidente in produzione. È un indicatore della resilienza del sistema e della capacità del team di rispondere alle emergenze.

Guida

Perché è importante

Tempi di recupero brevi:

Riducono l’impatto: Meno downtime significa meno impatto su utenti e business
Aumentano la fiducia: Fiducia nella capacità del team di gestire problemi
Supportano l’innovazione: Con recupero rapido, i team possono sperimentare con più confidenza
Migliorano la cultura: Focus su resilienza piuttosto che perfezione

Complementare al tasso di fallimento

Questa metrica funziona insieme a DORA-3 (Tasso di Fallimento):

Tasso di fallimento BASSO + MTTR BASSO = ✅ Ottimo (rilasci stabili e recupero rapido)
Tasso di fallimento ALTO + MTTR BASSO = ⚠️ Accettabile (fallimenti gestiti rapidamente)
Tasso di fallimento BASSO + MTTR ALTO = ⚠️ Rischioso (pochi problemi ma lenti a risolvere)
Tasso di fallimento ALTO + MTTR ALTO = ❌ Problematico (molti problemi e lenti a recuperare)

Target raccomandati

I team DOVREBBERO (SHOULD) puntare a:

Elite: < 1 ora
Alta: < 1 giorno
Media: 1 giorno - 1 settimana
Bassa: > 1 settimana

Come migliorare

Per ridurre il tempo di ripristino:

Automatizzare il rollback: Rollback con un click o automatico
Implementare feature flag: Disabilitare funzionalità problematiche istantaneamente
Migliorare il monitoraggio: Rilevare problemi rapidamente con alerting proattivo
Praticare incident response: Simulazioni e game day
Documentare runbook: Procedure chiare per scenari comuni
Implementare chaos engineering: Testare resilienza in anticipo
Migliorare l’osservabilità: Logging, tracing, metrics per debugging rapido
On-call rotation: Responsabilità chiare per incident response

Misurazione

Stato	Criteri
🟢 VERDE	Ripristino in meno di 1 ora
🟡 AMBRA	Ripristino in 1-4 ore
🔴 ROSSO	Ripristino in più di 4 ore

Come misurare

Tracciare:

Timestamp di inizio dell’incidente (quando rilevato)
Timestamp di ripristino del servizio (quando risolto)
Tempo medio tra i due eventi
Distribuzione (percentili: p50, p90, p95)

Definire “ripristino”:

Servizio completamente funzionante?
Funzionalità degradata accettabile?
Problema risolto o workaround in atto?

Fonti di dati:

Incident management system (PagerDuty, Opsgenie)
Service monitoring (uptime tracking)
Manuale: ticket log e post-mortem