Home
DORA-4: Tempo di Ripristino del Servizio
Descrizione
Il tempo di ripristino del servizio (Mean Time To Recovery - MTTR) misura quanto tempo ci vuole per recuperare da un incidente in produzione. È un indicatore della resilienza del sistema e della capacità del team di rispondere alle emergenze.
Guida
Perché è importante
Tempi di recupero brevi:
- Riducono l’impatto: Meno downtime significa meno impatto su utenti e business
- Aumentano la fiducia: Fiducia nella capacità del team di gestire problemi
- Supportano l’innovazione: Con recupero rapido, i team possono sperimentare con più confidenza
- Migliorano la cultura: Focus su resilienza piuttosto che perfezione
Complementare al tasso di fallimento
Questa metrica funziona insieme a DORA-3 (Tasso di Fallimento):
- Tasso di fallimento BASSO + MTTR BASSO = ✅ Ottimo (rilasci stabili e recupero rapido)
- Tasso di fallimento ALTO + MTTR BASSO = ⚠️ Accettabile (fallimenti gestiti rapidamente)
- Tasso di fallimento BASSO + MTTR ALTO = ⚠️ Rischioso (pochi problemi ma lenti a risolvere)
- Tasso di fallimento ALTO + MTTR ALTO = ❌ Problematico (molti problemi e lenti a recuperare)
Target raccomandati
I team DOVREBBERO (SHOULD) puntare a:
- Elite: < 1 ora
- Alta: < 1 giorno
- Media: 1 giorno - 1 settimana
- Bassa: > 1 settimana
Come migliorare
Per ridurre il tempo di ripristino:
- Automatizzare il rollback: Rollback con un click o automatico
- Implementare feature flag: Disabilitare funzionalità problematiche istantaneamente
- Migliorare il monitoraggio: Rilevare problemi rapidamente con alerting proattivo
- Praticare incident response: Simulazioni e game day
- Documentare runbook: Procedure chiare per scenari comuni
- Implementare chaos engineering: Testare resilienza in anticipo
- Migliorare l’osservabilità: Logging, tracing, metrics per debugging rapido
- On-call rotation: Responsabilità chiare per incident response
Misurazione
| Stato |
Criteri |
| 🟢 VERDE |
Ripristino in meno di 1 ora |
| 🟡 AMBRA |
Ripristino in 1-4 ore |
| 🔴 ROSSO |
Ripristino in più di 4 ore |
Come misurare
Tracciare:
- Timestamp di inizio dell’incidente (quando rilevato)
- Timestamp di ripristino del servizio (quando risolto)
- Tempo medio tra i due eventi
- Distribuzione (percentili: p50, p90, p95)
Definire “ripristino”:
- Servizio completamente funzionante?
- Funzionalità degradata accettabile?
- Problema risolto o workaround in atto?
Fonti di dati:
- Incident management system (PagerDuty, Opsgenie)
- Service monitoring (uptime tracking)
- Manuale: ticket log e post-mortem
Riferimenti