在過去的6個月中,NanoGPT在FineWeb上的3.28損失速度跑下降了33%,達到2分鐘。最近,這些變更的一部分被大量複製並粘貼到更大規模的2.92損失軌道上。令人驚訝的是,未調整的yolo運行打破了2.92損失記錄,提升了25%。