Uma explicação convincente para o motivo pelo qual Adam supera o SGD é que Adam se sai melhor na otimização das perdas de classes raras. Surpreendentemente, a melhoria do Muon parece ser devido ao Muon otimizar a cauda ainda melhor do que Adam. Tudo se resume à cauda pesada.