価値関数は強化学習(RL)で重要な役割を果たしており、今後ますますLLMにおいて重要な役割を果たすでしょう。@rohin_manviが主導するこの新しい論文は、値関数を用いてテストタイム計算を適応計算で最適化するという一歩です。