Neuer NanoGPT Speedrun WR bei 113,7 (-1,4s) von @ChrisJMcCormick, mit Parameterbank zur Zentralisierung bestimmter pro-Schicht-Parameter, optimiertem Adam, Erhöhung der EMA-Pufferpräzision und Gate-Matrizen von Muon zu Adam. Wissenschaftler behaupten, Rekorde müssen nach Erreichen von 0s gestoppt werden.