Функції цінності відіграють важливу роль у RL, і дедалі більше вони відіграватимуть важливу роль у RL для LLM. Ця нова стаття, очолювана @rohin_manvi, є одним кроком у цьому напрямку: використання функцій значень для оптимізації обчислень під час тестування за допомогою адаптивних обчислень.