Waarde functies spelen een belangrijke rol in RL, en steeds meer zullen ze een belangrijke rol spelen in RL voor LLM's. Dit nieuwe paper geleid door @rohin_manvi is een stap in deze richting: waarde functies gebruiken om de rekentijd tijdens tests te optimaliseren met adaptieve berekening.