📈 hiện đang trending trên alphaXiv "∆Belief-RL: Phân bổ tín dụng nội tại cho tương tác dài hạn" Tương tác RL dài hạn rất khắc nghiệt vì phần thưởng rất hiếm và không rõ câu hỏi hoặc hành động cụ thể nào thực sự gây ra thành công, vì vậy các tác nhân hoặc không học được hoặc học những quy tắc không bền vững. Để cải thiện điều này, ∆Belief-RL biến "sự tò mò" thành một tín hiệu học tập dài hạn đúng nghĩa bằng cách thưởng cho một tác nhân bất cứ khi nào một tương tác làm tăng niềm tin của nó vào câu trả lời đúng, nơi nó tăng xác suất của mô hình về kết quả chính xác. Điều này cung cấp phân bổ tín dụng dày đặc, từng bước cho việc đặt câu hỏi đúng, vì vậy các tác nhân học được hành vi tìm kiếm thông tin hiệu quả nhanh hơn và tổng quát hóa cho những chân trời dài hơn + các nhiệm vụ thực tế như dịch vụ khách hàng và cá nhân hóa với ít tương tác lãng phí hơn.