Un nou NanoGPT Speedrun WR la 106.9 (-2.3s) de la @.andrewbriand și @.jrauvola pe Github. Au observat că compilatorul torch executa un nucleu separat ineficient pentru activarea Relu(x)^2 și au adăugat un nucleu triton pentru a fuziona activarea în operațiunea liniară anterioară.