Одне з переконливих пояснень того, чому Адам перемагає SGD, полягає в тому, що Адам краще оптимізує втрати рідкісних класів. Дещо дивно, але покращення Мюона, схоже, пов'язане з тим, що Мюон оптимізував хвіст навіть краще, ніж Адам. Вся справа у важкому хвості.