Adam'ın SGD'yi neden yendiğine dair ikna edici bir açıklama, Adam'ın nadir sınıfların kayıplarını optimize etmede daha iyi performans göstermesidir. Biraz şaşırtıcı bir şekilde, Muon'un gelişimi, Muon'un kuyruğu Adam'dan bile daha iyi optimize etmesinden kaynaklanıyor gibi görünüyor. Her şey ağır kuyrukla ilgili.