新论文研究了光谱梯度方法(例如,Muon)在深度学习中的帮助时机: 1. 我们识别出深度学习中一种普遍存在的病态条件:后激活矩阵的稳定秩较低。 2. 然后我们解释了为什么光谱方法尽管如此仍能表现良好。 长线程