Nouveau record de vitesse NanoGPT à 109,2 (-3,5s) avec une autre mise à niveau d'attention novatrice (?) appelée Attention à Tête Appariée. Les requêtes peuvent s'adresser aux clés dans la tête voisine, permettant à chaque Q de récupérer 2 valeurs par position cible au lieu de 1. Impact de 3 % pour zéro paramètre !