Finalmente he llegado al punto en el que suficientes de las cosas de las que dependo son específicas de b200 + cuda + torch, que no podría obtener los mismos resultados en TPUs con Jax. Qué giro inesperado de los acontecimientos.