prime-rl: scala dei pod di inferenza a metà addestramento → scoperti automaticamente → sincronizzazione automatica dei pesi → percorsi automatici delle rollout