Novo recorde de velocidade do NanoGPT em 106.9 (-2.3s) de @.andrewbriand e @.jrauvola no Github. Eles observaram que o compilador torch estava executando um kernel separado ineficiente para a ativação Relu(x)^2 e adicionaram um kernel triton para fundir a ativação na operação linear anterior.