Ny NanoGPT Speedrun WR på 106,9 (-2,3 s) från @.andrewbriand och @.jrauvola på Github. De observerade att torchkompilatorn körde en ineffektiv separat kärna för Relu(x)^2-aktiveringen, och lade till en tritonkärna för att fusionera aktiveringen med den föregående linjära operationen.