NanoGPT Speedrun WR baru pada 112,7 (-1,0 detik), menampilkan bobot dalam bfloat16 dengan 16 bit ekstra dalam pengoptimal dan komunikasi interleaved. Inspirasi dari @YouJiacheng dan @ChrisJMcCormick. Juga pilihan Adam, yang melangkah setengah lebih sering dari Muon, memiliki lm_head beta1 = 0,5.