Nuevo récord de velocidad de NanoGPT en 106.9 (-2.3s) de @.andrewbriand y @.jrauvola en Github. Observaron que el compilador de torch estaba ejecutando un kernel separado ineficiente para la activación Relu(x)^2, y añadieron un kernel triton para fusionar la activación en la operación lineal anterior.