Thời gian chạy WR mới của NanoGPT ở mức 112.7 (-1.0s), với trọng số ở bfloat16 kèm theo 16 bit bổ sung trong bộ tối ưu hóa và giao tiếp xen kẽ. Cảm hứng từ @YouJiacheng và @ChrisJMcCormick. Cũng như bộ tối ưu hóa Adam, bước đi nửa lần so với Muon, có lm_head beta1=0.5.