Neuer NanoGPT Speedrun WR bei 112,7 (-1,0s), mit Gewichten in bfloat16 und zusätzlichen 16 Bits im Optimierer sowie interleaved Comms. Inspiration von @YouJiacheng und @ChrisJMcCormick. Außerdem der Adam-Optimierer, der halb so oft wie Muon Schritte macht, hat lm_head beta1=0,5.