「More Than DNS: The 14 hour AWS us-east-1 outage」 by Jonathon Belotti @jonobelotti_IO かなり鈍いアマゾンのレポートを理解するための良い試みです。 ソフトウェア/運用における事後分析では、RCA(根本原因分析)を使用するのではなく、次のフレームワークを使用する必要があります。 • メカニズム:ダウンタイム/障害の原因となった即時のプロセス(DNSエントリゼロなど) • 原因: メカニズムの変更につながった特定の欠陥 (競合状態など) • 方法: 欠陥を取り巻く状況または欠陥がどのように発生したか (例: コーディング エラー、人間のオペレーター エラー、ハードウェア障害など) RCAは粗すぎる楽器です。 休憩後の全文...