prime-rl: Skalierung von Inferenz-Pods während des Trainings → automatisch entdeckt → Gewicht automatisch synchronisieren → Rollouts automatisch leiten