Verdifunksjoner spiller en viktig rolle i RL, og i økende grad vil de spille en viktig rolle i RL for LLM-er. Denne nye artikkelen, ledet av @rohin_manvi, er ett steg i denne retningen: å bruke verdifunksjoner for å optimalisere testtidsberegning med adaptiv beregning.