Jednym z przekonujących wyjaśnień, dlaczego Adam przewyższa SGD, jest to, że Adam lepiej optymalizuje straty rzadkich klas. Nieco zaskakująco, poprawa Muon wydaje się wynikać z tego, że Muon optymalizuje ogon jeszcze lepiej niż Adam. Wszystko sprowadza się do ciężkiego ogona.