Yeni NanoGPT Speedrun WR 112.7 (-1.0s) hızında, bfloat16 ağırlıkları ve optimizer ile aralı iletişimde ekstra 16 bit ile sunuluyor. @YouJiacheng ve @ChrisJMcCormick'dan ilham aldım. Ayrıca, Muon'un yarısı kadar adım atan Adam opt'un beta1=0.5 lm_head vardır.