"Più di DNS: L'interruzione di 14 ore di AWS us-east-1" di Jonathon Belotti @jonobelotti_IO // Buon tentativo di dare un senso al rapporto piuttosto oscuro di Amazon. I post-mortem nel software/ops non dovrebbero utilizzare l'RCA (analisi delle cause radice) ma piuttosto utilizzare il framework di: • Meccanismo: Il processo immediato che ha portato al downtime/fallimento (ad es. zero voce DNS) • Causa: Il difetto specifico che ha portato ai cambiamenti meccanistici (ad es. condizione di gara) • Modo: Le circostanze che circondano il difetto o come è successo (ad es. errore di codifica, errore dell'operatore umano, guasto hardware, ecc.) L'RCA è uno strumento troppo grossolano. Post completo dopo la pausa...