Nuovo record di velocità per NanoGPT a 109,2 (-3,5s) con un altro aggiornamento innovativo (?) dell'attenzione chiamato Paired Head Attention. Le query possono accedere alle chiavi nella testa vicina, consentendo a ciascun Q di recuperare 2 valori per posizione target invece di 1. Impatto del 3% per zero parametri!