Nos últimos 6 meses, a Speedrun do NanoGPT para uma perda de 3.28 no FineWeb caiu 33% para 2 minutos. Recentemente, um subconjunto dessas mudanças foi copiado e colado em massa para a pista de perda maior de 2.92. Surpreendentemente, a execução yolo não ajustada quebrou o recorde de perda de 2.92 em 25%.