Nuevo récord de velocidad de NanoGPT en 109.2 (-3.5s) con otra mejora novedosa(?) de atención llamada Atención de Cabeza Emparejada. Las consultas pueden asistir a las claves en la cabeza vecina, permitiendo que cada Q recupere 2 valores por posición objetivo en lugar de 1. ¡Impacto del 3% sin parámetros!