📈 nu trending op alphaXiv "∆Belief-RL: Intrinsieke Krediettoewijzing voor Lange-Horizon Interactie" Lange-horizon interactieve RL is meedogenloos omdat beloningen schaars zijn en het onduidelijk is welke specifieke vragen of acties daadwerkelijk succes hebben veroorzaakt, waardoor agenten ofwel niet leren of kwetsbare heuristieken leren. Om dit te verbeteren, verandert ∆Belief-RL "nieuwsgierigheid" in een juiste lange-horizon leersignaal door een agent te belonen telkens wanneer een interactie zijn geloof in het juiste antwoord vergroot, waarbij het de eigen waarschijnlijkheid van het model op de juiste uitkomst verhoogt. Dit biedt dichte, stap-voor-stap krediettoewijzing voor het stellen van de juiste vragen, zodat agenten effectievere informatiezoekgedragingen sneller leren en generaliseren naar veel langere horizons + echte taken zoals klantenservice en personalisatie met veel minder verspilde interacties.