"Lebih dari DNS: Pemadaman AWS us-east-1 selama 14 jam" oleh Jonathon Belotti @jonobelotti_IO Upaya yang bagus untuk memahami laporan Amazon yang agak tumpul. Postmortem dalam perangkat lunak/operasi tidak boleh menggunakan RCA (analisis akar penyebab) melainkan menggunakan kerangka kerja: • Mekanisme: Proses langsung yang mengakibatkan downtime/kegagalan (misalnya entri DNS nol) • Penyebab: Cacat spesifik yang menyebabkan perubahan mekanistik (misalnya kondisi balapan) • Cara: Keadaan seputar cacat atau bagaimana hal itu terjadi (misalnya kesalahan pengkodean, kesalahan operator manusia, kegagalan perangkat keras, dll.) RCA adalah instrumen yang terlalu kasar. Posting lengkap setelah istirahat...