Я наконец-то дошел до того момента, когда достаточно вещей, от которых я завишу, специфичны для b200 + cuda + torch, и я не мог получить те же результаты на TPU с Jax. Какой неожиданный поворот событий.