De nouvelles études sur les méthodes de gradient spectral (par exemple, Muon) qui aident dans l'apprentissage profond : 1. Nous identifions une forme omniprésente de mauvaise condition dans l'apprentissage profond : les matrices post-activation ont un faible rang stable. 2. Nous expliquons ensuite pourquoi les méthodes spectrales peuvent bien fonctionner malgré cela. Long fil