Ny NanoGPT Speedrun WR på 106,9 (-2,3s) fra @.andrewbriand og @.jrauvola på Github. De observerte at torch-kompilatoren utførte en ineffektiv separat kjerne for Relu(x)^2-aktiveringen, og la til en triton-kjerne for å fusjonere aktiveringen inn i den tidligere lineære operasjonen.