Novo WR NanoGPT Speedrun em 113,7 (-1,4s) de @ChrisJMcCormick, com banco de param para centralizar certos parâmetros por camada, otimização do Adam, aumento de precisão do buffer ema e matrizes de gate de Muon para Adam. Cientistas afirmam que os registros devem parar após atingir 0s.