Nowy rekord prędkości NanoGPT na poziomie 109,2 (-3,5s) z kolejną nową(?) aktualizacją uwagi o nazwie Paired Head Attention. Zapytania mogą zwracać uwagę na klucze w sąsiedniej głowie, co umożliwia każdemu Q pobranie 2 wartości na pozycję docelową zamiast 1. 3% wpływu przy zerowej liczbie parametrów!