Las funciones de valor juegan un papel importante en el RL, y cada vez más lo serán en el RL para los LLMs. Este nuevo artículo liderado por @rohin_manvi es un paso en esta dirección: usar funciones de valor para optimizar el cálculo en tiempo de prueba con computación adaptativa.