интересно. Если я правильно помню, исключение текущего токена из KV с помощью маски внимания (т.е. удаление диагонали) не работает! Гипотеза: это эффективно делает текущий токен «поглотителем» внимания.