RL ngoại tuyến bị chi phối bởi sự bảo thủ -- an toàn, nhưng hạn chế khả năng tổng quát. Trong bài báo mới của chúng tôi, chúng tôi đặt ra câu hỏi: điều gì sẽ xảy ra nếu chúng tôi bỏ qua nó và dựa vào nguyên tắc Bayesian để tổng quát thích ứng? Thật bất ngờ, các vòng lặp dài hạn -- thường bị tránh trong RL dựa trên mô hình -- lại làm cho nó hoạt động. 🧵