Negli ultimi 6 mesi, il NanoGPT Speedrun per una perdita di 3.28 su FineWeb è sceso del 33% a 2 minuti. Recentemente, un sottoinsieme di queste modifiche è stato copiato e incollato in blocco nella traccia di perdita più ampia di 2.92. Sorprendentemente, la corsa yolo non ottimizzata ha superato il record di perdita di 2.92 del 25%.