Ny NanoGPT Speedrun WR på 112,7 (-1,0s), med vekter i bfloat16 med ekstra 16 biter i optimalisator og interleaved comms. Inspirasjon fra @YouJiacheng og @ChrisJMcCormick. Også Adam-opt, som trår halvparten så ofte som Muon, har lm_head beta1=0,5.