NanoGPT Speedrun WR baru pada 109.2 (-3.5 detik) dengan peningkatan baru lainnya yang disebut Paired Head Attention. Kueri dapat menangani kunci di kepala tetangga, memungkinkan setiap Q untuk mengambil 2 nilai per posisi target, bukan 1. Dampak 3% untuk nol param!