prime-rl: schaal inferentie pods midden in training → automatisch ontdekt → gewicht automatisch gesynchroniseerd → rollouts automatisch gerouteerd