Noi studii studiază atunci când metodele cu gradient spectral (de exemplu, Muon) ajută la învățarea profundă: 1. Identificăm o formă omniprezentă de condiționare proastă în DL: matricile post-activări au rang scăzut-stabil. 2. Explicăm apoi de ce metodele spectrale pot funcționa bine în ciuda acestui fapt. Fir lung