📈 nyt trendissä alphaXiv:ssä "∆Belief-RL: Intrinsic Credit Assignment for Long-Horizon Vuorovaikutus" Pitkäaikainen interaktiivinen RL on rankkaa, koska palkinnot ovat harvassa eikä ole selvää, mitkä kysymykset tai toimet todella aiheuttivat menestyksen, joten agentit joko eivät opi tai oppivat hauraita heuristiikkoja. Tämän parantamiseksi ∆Belief-RL muuttaa "uteliaisuuden" oikeaksi pitkän aikavälin oppimissignaaliksi palkitsemalla agentin aina, kun vuorovaikutus lisää uskoaan todelliseen vastaukseen, jolloin se kasvattaa mallin omaa todennäköisyyttä oikeaan lopputulokseen. Tämä antaa tiheän, vaiheittaisen pisteytyksen oikeiden kysymysten esittämisestä, joten agentit oppivat tehokkaan tiedonhakukäyttäytymisen nopeammin ja yleistävät paljon pidemmälle aikarajalle + todellisiin tehtäviin kuten asiakaspalveluun ja personointiin, ja paljon vähemmän hukkaan menneitä vuorovaikutuksia.