a parte l'infrastruttura, raddoppiare l'uso del calcolo RL è banale 2x parametri, 2x dimensione del batch, 2x passi, rollout più lunghi del 25% sarà migliore? sì. un po'.