prime-rl: escalado de pods de inferencia a mitad de entrenamiento → auto-descubiertos → sincronización automática de pesos → rutas automáticas de rollouts