Nuovo record di velocità per NanoGPT a 112.7 (-1.0s), con pesi in bfloat16 e 16 bit extra nell'ottimizzatore e comunicazioni interleaved. Ispirazione da @YouJiacheng e @ChrisJMcCormick. Inoltre, l'ottimizzatore Adam, che fa un passo la metà delle volte rispetto a Muon, ha lm_head beta1=0.5.