As funções de valor desempenham um papel importante em RL, e cada vez mais elas desempenharão um papel importante em RL para LLMs. Este novo artigo liderado por @rohin_manvi é um passo nessa direção: usar funções de valor para otimizar o cálculo em tempo de teste com computação adaptativa.