基礎設施不談,將 RL 計算使用量提高 10 倍是微不足道的 2 倍參數,2 倍批次大小,2 倍步驟,滾動時間延長 25% 這樣會更好嗎?是的。好一點。