Функции ценности играют важную роль в RL, и все больше они будут играть важную роль в RL для LLM. Эта новая статья, возглавляемая @rohin_manvi, является одним шагом в этом направлении: использование функций ценности для оптимизации вычислений во время тестирования с адаптивными вычислениями.