關於強化學習擴展的新文章: 對OpenAI公開基準的仔細分析顯示,強化學習的擴展性遠不如推理:要匹配每次推理計算的10倍擴展,您需要100倍的強化學習訓練計算。它之所以具有成本效益的唯一原因是從一個微小的基數開始。 🧵