Nuovo record di velocità per NanoGPT a 106,9 (-2,3s) da @.andrewbriand e @.jrauvola su Github. Hanno osservato che il compilatore torch stava eseguendo un kernel separato inefficiente per l'attivazione Relu(x)^2 e hanno aggiunto un kernel triton per fondere l'attivazione nell'operazione lineare precedente.