📈 maintenant tendance sur alphaXiv "∆Belief-RL : Attribution de crédit intrinsèque pour l'interaction à long terme" L'apprentissage par renforcement interactif à long terme est brutal car les récompenses sont rares et il n'est pas clair quelles questions ou actions spécifiques ont réellement causé le succès, donc les agents n'apprennent pas ou apprennent des heuristiques fragiles. Pour améliorer cela, ∆Belief-RL transforme la "curiosité" en un véritable signal d'apprentissage à long terme en récompensant un agent chaque fois qu'une interaction augmente sa croyance dans la vraie réponse, où cela augmente la probabilité du modèle sur le bon résultat. Cela donne une attribution de crédit dense, étape par étape, pour poser les bonnes questions, de sorte que les agents apprennent un comportement efficace de recherche d'informations plus rapidement et se généralisent à des horizons beaucoup plus longs + des tâches réelles comme le service client et la personnalisation avec beaucoup moins d'interactions gaspillées.