Värdefunktioner spelar en viktig roll i RL, och i allt högre grad kommer de att spela en viktig roll i RL för LLM:er. Denna nya artikel, ledd av @rohin_manvi, är ett steg i denna riktning: att använda värdefunktioner för att optimera testtidsberäkning med adaptiv beräkning.