新しいNanoGPT Speedrun WRは112.7(-1.0秒)で、bfloat16の重みとオプティマイザーおよびインターリーブ通信で追加16ビットの重みを特徴としています。@YouJiachengと@ChrisJMcCormickからのインスピレーション。また、アダム・オプトはミューオンの半分の頻度で、beta1=0.5 lm_headします。