📈 acum în trend pe alphaXiv "∆Belief-RL: Atribuire intrinsecă a creditelor pentru interacțiunea pe termen lung" RL-ul interactiv pe termen lung este brutal pentru că recompensele sunt rare și nu este clar care întrebări sau acțiuni specifice au cauzat cu adevărat succesul, așa că agenții fie nu învață, fie învață euristici fragile. Pentru a îmbunătăți acest aspect, ∆Belief-RL transformă "curiozitatea" într-un semnal de învățare pe termen lung propriu-zis, recompensând un agent ori de câte ori o interacțiune îi crește credința în răspunsul adevărat, crescând astfel probabilitatea modelului asupra rezultatului corect. Aceasta oferă o atribuire densă, pas cu pas, de credite pentru întrebările potrivite, astfel încât agenții învață mai rapid comportamente eficiente de căutare a informațiilor și generalizează la orizonturi mult mai lungi + sarcini reale precum serviciul clienți și personalizarea, cu mult mai puține interacțiuni irosite.