Новий NanoGPT Speedrun WR на 106.9 (-2.3с) від @.andrewbriand та @.jrauvola на Github. Вони помітили, що компілятор torch виконує неефективне окреме ядро для активації Relu(x)^2, і додали тритонне ядро для злиття активації з попередньою лінійною операцією.