想要為強化學習建立擴展法則,但不確定如何擴展?或者擴展什麼?或者強化學習是否能夠可預測地擴展? 我們介紹:擴展大型語言模型的強化學習計算藝術