"Więcej niż DNS: 14-godzinna awaria AWS us-east-1" autorstwa Jonathona Belottiego @jonobelotti_IO // Dobre podejście do zrozumienia dość niejasnego raportu Amazona. Postmortem w oprogramowaniu/operacjach nie powinno używać RCA (analiza przyczyn źródłowych), lecz zamiast tego korzystać z ram: • Mechanizm: Bezpośredni proces, który doprowadził do przestoju/awarii (np. brak wpisu DNS) • Przyczyna: Konkretna wada, która doprowadziła do zmian mechanistycznych (np. warunek wyścigu) • Sposób: Okoliczności otaczające wadę lub jak to się stało (np. błąd w kodzie, błąd operatora, awaria sprzętu itp.) RCA jest zbyt grubym narzędziem. Pełne post po przerwie...