Các hàm giá trị đóng một vai trò quan trọng trong RL, và ngày càng nhiều chúng sẽ đóng một vai trò quan trọng trong RL cho LLMs. Bài báo mới này do @rohin_manvi dẫn dắt là một bước tiến trong hướng này: sử dụng các hàm giá trị để tối ưu hóa tính toán thời gian kiểm tra với tính toán thích ứng.