Interessant. Hvis jeg husker riktig, fungerer det ikke å utelukke nåværende tokens KV med attention mask (dvs. fjerne diagonalen)! Hypotese: dette gjør i praksis at nåværende token blir en oppmerksomhetssluker.