prime-rl: escalonar pods de inferência durante o treinamento → descobertos automaticamente → sincronização automática de pesos → roteamento automático de rollouts