Jag har äntligen kommit till den punkt där tillräckligt många av de saker jag förlitar mig på är b200 + cuda + torch-specifika så att jag inte kunde få samma resultat på TPU:er med Jax. Vilken oväntad vändning.