Nowy rekord prędkości NanoGPT na poziomie 106,9 (-2,3s) od @.andrewbriand i @.jrauvola na Githubie. Zauważyli, że kompilator torch wykonywał nieefektywny oddzielny kernel dla aktywacji Relu(x)^2, i dodali kernel triton, aby połączyć aktywację z wcześniejszą operacją liniową.