Een overtuigende verklaring voor waarom Adam beter presteert dan SGD is dat Adam beter is in het optimaliseren van de verliezen van zeldzame klassen. Tot mijn verbazing lijkt de verbetering van Muon te komen doordat Muon de staart zelfs beter optimaliseert dan Adam. Het draait allemaal om de zware staart.