prime-rl : pods d'inférence à l'échelle en cours d'entraînement → découverte automatique → synchronisation automatique des poids → routage automatique des rollouts