Nieuwe NanoGPT Speedrun WR op 109,2 (-3,5s) met een andere nieuwe (?) attn-upgrade genaamd Paired Head Attention. Vragen kunnen zich richten op sleutels in de aangrenzende kop, waardoor elke Q 2 waarden per doelpositie kan ophalen in plaats van 1. 3% impact voor nul parameters!