Interesant. Dacă îmi amintesc bine, excluderea KV-ului tokenului actual prin masca de atenție (adică eliminarea diagonalei) nu funcționează! Ipoteză: acest lucru face ca tokenul actual să fie un consumator de atenție.