Funções de valor desempenham um papel importante no RL, e cada vez mais terão um papel importante no RL para LLMs. Este novo artigo liderado por @rohin_manvi é um passo nessa direção: usar funções de valor para otimizar o cálculo em tempo de teste com computação adaptativa.