Ny NanoGPT Speedrun WR på 113,7 (-1,4 s) fra @ChrisJMcCormick, med parambank for å sentralisere visse per-lags parametere, optimalisert Adam, økning i ema-bufferpresisjon, og gatematriser fra Muon til Adam. Forskere hevder at rekorder må stoppe etter å ha nådd 0-tallet.