Ny NanoGPT Speedrun WR på 112,7 (-1,0 s), med vikter i bfloat16 med extra 16 bitar i optimeraren och interleaved comms. Inspiration från @YouJiacheng och @ChrisJMcCormick. Dessutom har Adam opt, som går hälften så ofta som Muon, lm_head beta1=0,5.