新しいNanoGPT Speedrun WRは113.7(-1.4秒)で、@ChrisJMcCormickからパラメータバンクを使った部分の層ごとのパラメータを集中化し、最適化されたAdam、emaバッファ精度の向上、MuonからAdamへのゲート行列を実装しました。科学者たちは、記録は0に達すると停止しなければならないと主張しています。