Nowy rekord prędkości NanoGPT na poziomie 112.7 (-1.0s), z wagami w bfloat16 z dodatkowymi 16 bitami w optymalizatorze i przeplatanymi komunikatami. Inspiracja od @YouJiacheng i @ChrisJMcCormick. Również optymalizator Adam, który wykonuje kroki dwa razy rzadziej niż Muon, ma lm_head beta1=0.5.