Я много использовал профайлер PyTorch
то, что вы видите здесь, это трассировка профиля 10 прямых проходов (10 предсказаний токенов), и шаг профайлера 0 говорит мне, что самым очевидным узким местом производительности является этап предварительного заполнения
Я вернусь к этой трассировке, чтобы сравнить, когда у меня будет более быстрый способ предварительного заполнения