Новый рекорд скорости NanoGPT на уровне 113.7 (-1.4с) от @ChrisJMcCormick, с банковым параметром для централизации определенных параметров на каждом слое, оптимизированным Adam, увеличением точности буфера ema и матрицами ворот от Muon к Adam. Ученые утверждают, что рекорды должны прекратиться после достижения 0с.