价值函数在强化学习中扮演着重要角色,并且它们在大语言模型的强化学习中将越来越重要。这篇由@rohin_manvi主导的新论文是朝这个方向迈出的一步:利用价值函数来优化测试时的计算,采用自适应计算。