Uusi NanoGPT Speedrun WR 113,7 (-1,4s) nopeudella @ChrisJMcCormick:sta, param-pankilla keskittääkseen tiettyjä kerroskohtaisia parametreja, optimoitu Adam, EMA bufferin tarkkuuden kasvu sekä porttimatriisit Muonista Adamiin. Tutkijat väittävät, että tilastot on lopetettava nollan jälkeen.