Las funciones de valor juegan un papel importante en el RL, y cada vez más jugarán un papel importante en el RL para LLMs. Este nuevo artículo liderado por @rohin_manvi es un paso en esta dirección: utilizar funciones de valor para optimizar el cálculo en tiempo de prueba con computación adaptativa.