Nový NanoGPT Speedrun WR na 113,7 (-1,4 s) z @ChrisJMcCormick, s parambankou pro centralizaci určitých parametrů na vrstvě, optimalizovaným Adamem, zvýšením přesnosti EMA bufferu a hradlovými maticemi z Muonu do Adamu. Vědci tvrdí, že záznamy musí přestat po dosažení nul.