Hodnotové funkce hrají v RL důležitou roli a stále více budou hrát důležitou roli i v RL pro LLM. Tento nový článek vedený @rohin_manvi je jedním krokem tímto směrem: využití hodnotových funkcí k optimalizaci výpočtu v době testu pomocí adaptivního výpočtu.