Nuevo récord de velocidad de NanoGPT en 113.7 (-1.4s) de @ChrisJMcCormick, con un banco de parámetros para centralizar ciertos parámetros por capa, Adam optimizado, aumento de precisión del buffer ema y matrices de compuerta de Muon a Adam. Los científicos afirman que los récords deben detenerse después de alcanzar 0s.