Uusi NanoGPT Speedrun WR nopeudella 109,2 (-3,5s) ja toinen uusi (?) attn-päivitys nimeltä Paired Head Attention. Kyselyt voivat keskittyä naapuripään avaimiin, jolloin jokainen Q voi hakea 2 arvoa per kohdepaikka yhden sijaan. 3 % vaikutus nollalla parametrilla!