在过去的6个月中,NanoGPT Speedrun在FineWeb上的3.28损失下降了33%,达到了2分钟。最近,这些变化的一个子集被批量复制粘贴到更大规模的2.92损失轨道上。令人惊讶的是,未调优的yolo运行打破了2.92损失记录,提升了25%。