Novo recorde de velocidade do NanoGPT em 112.7 (-1.0s), apresentando pesos em bfloat16 com 16 bits extras no otimizador e comunicações intercaladas. Inspiração de @YouJiacheng e @ChrisJMcCormick. Também o otimizador Adam, que dá passos metade tão frequentes quanto o Muon, tem lm_head beta1=0.5.