Novos artigos estudam quando métodos de gradiente espectral (por exemplo, Muon) ajudam em deep learning: 1. Identificamos uma forma generalizada de mal condicionamento em DL: matrizes pós-ativações apresentam posição de baixo nível estável. 2. Então explicamos por que métodos espectrais podem ter bom desempenho apesar disso. Longo fio