Ny NanoGPT Speedrun WR på 113,7 (-1,4 s) från @ChrisJMcCormick, med parambank för att centralisera vissa per-lager-parametrar, optimerad Adam, ökning av ema-buffertprecisionen och grindmatriser från Muon till Adam. Forskare hävdar att registreringarna måste sluta efter att ha nått nollor.