O explicație convingătoare pentru motivul pentru care Adam învinge SGD este că Adam se descurcă mai bine la optimizarea pierderilor de clase rare. Oarecum surprinzător, îmbunătățirea lui Muon pare să se datoreze faptului că Muon optimizează coada chiar mai bine decât Adam. Totul ține de coada grea.