Nový NanoGPT Speedrun WR na 109,2 (-3,5s) s dalším novým(?) vylepšením attn nazvaným Pair Head Attention. Dotazy mohou zaměřit klíče v sousední hlavě, což umožňuje každému Q získat 2 hodnoty na cílovou pozici místo 1. 3% dopad při nulových parametrech!