價值函數在強化學習中扮演著重要角色,並且在大型語言模型的強化學習中,它們將越來越重要。這篇由@rohin_manvi主導的新論文是朝這個方向邁出的一步:利用價值函數來優化測試時的計算,實現自適應計算。