Nový NanoGPT Speedrun WR na 112,7 (-1,0s), s váhami v bfloat16 plus extra 16 bity v optimalizátoru a prokládané komunikaci. Inspirace z @YouJiacheng a @ChrisJMcCormick. Také Adamův opt, který se pohybuje polovinou času než Muon, má lm_head beta1=0,5.