Home

DORA-4: Tempo di Ripristino del Servizio

Descrizione

Il tempo di ripristino del servizio (Mean Time To Recovery - MTTR) misura quanto tempo ci vuole per recuperare da un incidente in produzione. È un indicatore della resilienza del sistema e della capacità del team di rispondere alle emergenze.

Guida

Perché è importante

Tempi di recupero brevi:

Complementare al tasso di fallimento

Questa metrica funziona insieme a DORA-3 (Tasso di Fallimento):

Target raccomandati

I team DOVREBBERO (SHOULD) puntare a:

Come migliorare

Per ridurre il tempo di ripristino:

  1. Automatizzare il rollback: Rollback con un click o automatico
  2. Implementare feature flag: Disabilitare funzionalità problematiche istantaneamente
  3. Migliorare il monitoraggio: Rilevare problemi rapidamente con alerting proattivo
  4. Praticare incident response: Simulazioni e game day
  5. Documentare runbook: Procedure chiare per scenari comuni
  6. Implementare chaos engineering: Testare resilienza in anticipo
  7. Migliorare l’osservabilità: Logging, tracing, metrics per debugging rapido
  8. On-call rotation: Responsabilità chiare per incident response

Misurazione

Stato Criteri
🟢 VERDE Ripristino in meno di 1 ora
🟡 AMBRA Ripristino in 1-4 ore
🔴 ROSSO Ripristino in più di 4 ore

Come misurare

Tracciare:

Definire “ripristino”:

Fonti di dati:

Riferimenti