Neue Studien zeigen, wann spektrale Gradientenmethoden (z. B. Muon) im Deep Learning helfen: 1. Wir identifizieren eine weit verbreitete Form von Schlechtbedingungen im DL: Post-Aktivierungs-Matrizen haben einen niedrig stabilen Rang. 2. Wir erklären dann, warum spektrale Methoden trotz dieser Umstände gut abschneiden können. Langer Thread