Une explication convaincante pour laquelle Adam surpasse SGD est qu'Adam est meilleur pour optimiser les pertes des classes rares. De manière quelque peu surprenante, l'amélioration de Muon semble être due au fait que Muon optimise la queue encore mieux qu'Adam. Tout tourne autour de la queue lourde.