Новий NanoGPT Speedrun WR на 109.2 (-3.5с) з ще одним новим (?) оновленням під назвою Paired Head Attention. Запити можуть звертати увагу на ключі в сусідній голові, дозволяючи кожному Q отримувати 2 значення на цільову позицію замість 1. 3% впливу для нульових параметрів!