Nessuno si rende conto che un buon sistema di allerta e osservabilità è la chiave per un alto tempo di attività durante l'addestramento. Perdere un'isola fsdp con tolleranza ai guasti (e stato ft) non è ideale, quindi essere in grado di notare il crash in meno di 1 minuto e identificare il guasto è fondamentale, l'intero team PI infra sta lavorando duramente su tutto questo 🙏