Funcțiile de valoare joacă un rol important în RL și, din ce în ce mai mult, vor juca un rol important în RL pentru LLM-uri. Această nouă lucrare condusă de @rohin_manvi este un pas în această direcție: utilizarea funcțiilor valoare pentru a optimiza calculul în timpul testului cu calcul adaptiv.