Fungsi nilai memainkan peran penting dalam RL, dan semakin banyak mereka akan memainkan peran penting dalam RL untuk LLM. Makalah baru yang dipimpin oleh @rohin_manvi ini adalah satu langkah ke arah ini: menggunakan fungsi nilai untuk mengoptimalkan komputasi waktu pengujian dengan komputasi adaptif.