Jedním z přesvědčivých vysvětlení, proč Adam poráží SGD, je, že Adam si vede lépe při optimalizaci ztrát vzácných tříd. Poněkud překvapivě se zdá, že zlepšení Muona je způsobeno tím, že Muon optimalizoval ocas ještě lépe než Adam. Všechno je to o těžkém ocasu.