📈 现在在 alphaXiv 上趋势 "∆Belief-RL: 长期交互的内在信用分配" 长期交互的强化学习是残酷的,因为奖励稀疏,并且不清楚哪些具体的问题或行动实际上导致了成功,因此代理要么不学习,要么学习脆弱的启发式方法。 为了改善这一点,∆Belief-RL 将“好奇心”转化为一个适当的长期学习信号,通过在每次交互增加其对真实答案的信念时奖励代理,从而提升模型对正确结果的概率。 这为提出正确问题提供了密集的逐步信用分配,因此代理能够更快地学习有效的信息寻求行为,并且能够推广到更长的时间范围和真实任务,如客户服务和个性化,且浪费的交互大大减少。