Ny NanoGPT Speedrun WR på 109,2 (-3,5 s) med en annan ny(?) attn-uppgradering kallad Paired Head Attention. Frågor kan ta hand om nycklar i det närliggande huvudet, vilket gör att varje Q kan hämta 2 värden per målposition istället för 1. 3% påverkan utan några params!