Nuovo studio sui metodi di gradiente spettrale (ad es., Muon) che aiutano nel deep learning: 1. Identifichiamo una forma pervasiva di cattiva condizione nel DL: le matrici post-attivazione hanno un rango basso e instabile. 2. Spieghiamo quindi perché i metodi spettrali possono funzionare bene nonostante ciò. Lunga discussione