Nieuwe NanoGPT Speedrun WR op 113,7 (-1,4s) van @ChrisJMcCormick, met param bank om bepaalde per-laag parameters te centraliseren, geoptimaliseerde Adam, verhoging van de ema buffer precisie, en poortmatrices van Muon naar Adam. Wetenschappers beweren dat records moeten stoppen na het bereiken van 0s.