Uusi NanoGPT Speedrun WR nopeudella 112,7 (-1,0s), jossa painot ovat bfloat16 ja lisäksi 16 bittiä optimoijassa ja interleaved-viestissä. Inspiraatiota @YouJiacheng ja @ChrisJMcCormick. Myös Adam-opt, joka astuu puolet muonista useammin, on lm_head beta1=0.5.