新的部落格文章。最近,人們一直在討論在強化學習(RL)中獲取單個樣本所需的計算量遠遠超過預訓練所需的計算量。 但這只是問題的一半。 在強化學習中,那個昂貴的樣本通常也會給你更少的位元。 這對於強化學習變壓器(RLVR)如何擴展有影響,並幫助我們理解為什麼自我對弈和課程學習對強化學習如此有幫助,為什麼強化學習模型的表現異常不穩定,以及我們如何思考人類的不同之處。 以下是連結。