Nuevo récord de velocidad de NanoGPT en 112.7 (-1.0s), con pesos en bfloat16 y 16 bits extra en el optimizador y comunicaciones entrelazadas. Inspiración de @YouJiacheng y @ChrisJMcCormick. También el optimizador Adam, que da pasos la mitad de veces que Muon, tiene lm_head beta1=0.5.