Le RL hors ligne est dominé par le conservatisme -- sûr, mais limitant la généralisation. Dans notre nouvel article, nous posons la question : que se passerait-il si nous l'abandonnions et nous appuyions sur le principe bayésien pour une généralisation adaptative ? Surprenamment, les déploiements à long terme -- généralement évités dans le RL basé sur des modèles -- le rendent possible. 🧵