NanoGPT Speedrun WR الجديد بسرعة 109.2 (-3.5 ثانية) مع ترقية جديدة أخرى تسمى Paired Head Attention. يمكن للاستفسارات معالجة المفاتيح في الرأس المجاور، مما يمكن كل Q من استرجاع قيمتين لكل موضع هدف بدلا من 1. تأثير 3٪ مقابل صفر برام فقط!