Nowy rekord prędkości NanoGPT na poziomie 113,7 (-1,4s) od @ChrisJMcCormick, z bankiem parametrów do centralizacji niektórych parametrów na poziomie warstwy, zoptymalizowanym Adamem, zwiększoną precyzją bufora ema oraz macierzami bramkowymi z Muon do Adama. Naukowcy twierdzą, że rekordy muszą się zatrzymać po osiągnięciu 0s.