Niemand beseft dat goede waarschuwingen en observability de sleutel zijn tot hoge trainingsbeschikbaarheid. Het verliezen van een fsdp-eiland met fouttolerantie (en ft-status) is niet ideaal, dus het is cruciaal om de crash binnen <1min op te merken en de fout te identificeren, het hele PI infra-team werkt zo hard aan dit alles 🙏