Finalmente cheguei ao ponto em que muitas das coisas das quais dependo são específicas de b200 + cuda + torch, de modo que não consegui obter os mesmos resultados em TPUs com Jax. Que reviravolta inesperada.