Новое исследование изучает, когда спектральные градиентные методы (например, Muon) помогают в глубоком обучении: 1. Мы выявляем распространенную форму плохой обусловленности в ГО: матрицы пост-активаций имеют низкий стабильный ранг. 2. Затем мы объясняем, почему спектральные методы могут работать хорошо, несмотря на это. Длинная нить