Neuer NanoGPT Speedrun WR bei 109,2 (-3,5s) mit einem weiteren neuartigen(?) Aufmerksamkeits-Upgrade namens Paired Head Attention. Abfragen können auf Schlüssel im benachbarten Kopf zugreifen, wodurch jedes Q 2 Werte pro Zielposition anstelle von 1 abrufen kann. 3% Einfluss bei null Parametern!