Funkcje wartości odgrywają ważną rolę w RL, a coraz częściej będą odgrywać ważną rolę w RL dla LLM. Ten nowy artykuł prowadzony przez @rohin_manvi to krok w tym kierunku: wykorzystanie funkcji wartości do optymalizacji obliczeń w czasie testu z adaptacyjnym obliczaniem.