Les fonctions de valeur jouent un rôle important dans l'apprentissage par renforcement (RL), et de plus en plus, elles joueront un rôle important dans le RL pour les LLMs. Ce nouvel article dirigé par @rohin_manvi est un pas dans cette direction : utiliser des fonctions de valeur pour optimiser le calcul en temps de test avec une computation adaptative.