Новий NanoGPT Speedrun WR на частоті 113.7 (-1.4с) з @ChrisJMcCormick року, з банком параметрів для централізації певних параметрів на рівні, оптимізованим Adam, підвищенням точності буфера EMA та матрицями вентилів від Muon до Adam. Вчені стверджують, що записи мають припинятися після досягнення 0.