Цікаво. Якщо я правильно пам'ятаю, виключення KV поточного токена за допомогою маски уваги (тобто видалення діагоналі) не працює! Гіпотеза: це фактично робить поточний токен поглинаючим увагу.