NanoGPT Speedrun WR baru pada 113,7 (-1,4 detik) dari @ChrisJMcCormick, dengan bank parameter untuk memusatkan parameter per lapisan tertentu, mengoptimalkan Adam, peningkatan presisi buffer ema, dan matriks gerbang dari Muon ke Adam. Para ilmuwan mengklaim catatan harus berhenti setelah mencapai 0 detik.