Un nuevo artículo estudia cuándo los métodos de gradiente espectral (por ejemplo, Muon) ayudan en el aprendizaje profundo: 1. Identificamos una forma generalizada de mal condicionamiento en el aprendizaje profundo: las matrices post-activaciones tienen un rango bajo y poco estable. 2. Luego explicamos por qué los métodos espectrales pueden funcionar bien a pesar de esto. Hilo largo