Novo NanoGPT Speedrun WR em 112,7 (-1,0s), com pesos em bfloat16 com 16 bits extras no otimizador e comunicações intercaladas. Inspiração de @YouJiacheng e @ChrisJMcCormick. Além disso, o Adam op, que pisa metade da frequência que Muon, tem lm_head beta1=0,5.