Ny NanoGPT Speedrun WR på 109,2 (-3,5 s) med en annen ny(?) attn-oppgradering kalt Paired Head Attention. Spørringer kan ta seg av nøkler i nabohodet, slik at hver Q kan hente 2 verdier per målposisjon i stedet for 1. 3 % innvirkning uten noen paramer!