Kỷ lục Speedrun mới của NanoGPT ở mức 106.9 (-2.3s) từ @.andrewbriand và @.jrauvola trên Github. Họ đã nhận thấy rằng trình biên dịch torch đang thực hiện một kernel riêng biệt không hiệu quả cho hàm kích hoạt Relu(x)^2, và đã thêm một kernel triton để kết hợp hàm kích hoạt vào phép toán tuyến tính trước đó.