Новий NanoGPT Speedrun WR на частоті 112.7 (-1.0с), з вагами в bfloat16 з додатковими 16 бітами в оптимізаторі та інтерливованому зв'язку. Натхнення з @YouJiacheng і @ChrisJMcCormick. Також опт Адама, який крокує вдвічі частіше, ніж Мюон, має lm_head beta1=0.5.