Un nou WR NanoGPT Speedrun la 113.7 (-1.4s) de la @ChrisJMcCormick, cu banca de paramuri pentru centralizarea anumitor parametri pe strat, Adam optimizat, creșterea preciziei bufferului EMA și matrici de porți de la Muon la Adam. Oamenii de știință susțin că recordurile trebuie să înceteze după ce ajung la 0.