Prime-RL: Pods de inferencia de escalas a mitad de entrenamiento → auto-detectados → sincronización automática de peso → despliegues