📈 nyní trenduje na alphaXiv "∆Belief-RL: Vnitřní přiřazení kreditů pro dlouhodobou interakci" Dlouhodobé interaktivní RL je brutální, protože odměny jsou vzácné a není jasné, které konkrétní otázky nebo akce skutečně způsobily úspěch, takže agenti buď neučí, nebo se naučí křehké heuristiky. Pro zlepšení tohoto trendu ∆Belief-RL proměňuje "zvědavost" v správný signál učení s dlouhým horizontem tím, že odměňuje agenta pokaždé, když interakce zvyšuje jeho víru v pravdivou odpověď, čímž zvyšuje pravděpodobnost modelu na správný výsledek. To poskytuje husté, krok za krokem přidělování kreditů za kladení správných otázek, takže agenti se rychleji naučí efektivní vyhledávání informací a zobecní na mnohem delší horizonty + skutečné úkoly jako zákaznický servis a personalizace s mnohem menším množstvím zbytečných interakcí.