基础设施方面,10倍增加RL计算使用是微不足道的 2倍参数,2倍批量大小,2倍步骤,25%更长的回合 会更好吗?是的。稍微好一点。