Au cours des 6 derniers mois, la vitesse de NanoGPT pour atteindre une perte de 3,28 sur FineWeb a chuté de 33 % à 2 minutes. Récemment, un sous-ensemble de ces changements a été copié-collé en masse sur la piste de perte à plus grande échelle de 2,92. Étonnamment, la course yolo non réglée a battu le record de perte de 2,92 de 25 %.