Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
📈 nyní trenduje na alphaXiv
"∆Belief-RL: Vnitřní přiřazení kreditů pro dlouhodobou interakci"
Dlouhodobé interaktivní RL je brutální, protože odměny jsou vzácné a není jasné, které konkrétní otázky nebo akce skutečně způsobily úspěch, takže agenti buď neučí, nebo se naučí křehké heuristiky.
Pro zlepšení tohoto trendu ∆Belief-RL proměňuje "zvědavost" v správný signál učení s dlouhým horizontem tím, že odměňuje agenta pokaždé, když interakce zvyšuje jeho víru v pravdivou odpověď, čímž zvyšuje pravděpodobnost modelu na správný výsledek.
To poskytuje husté, krok za krokem přidělování kreditů za kladení správných otázek, takže agenti se rychleji naučí efektivní vyhledávání informací a zobecní na mnohem delší horizonty + skutečné úkoly jako zákaznický servis a personalizace s mnohem menším množstvím zbytečných interakcí.

Top
Hodnocení
Oblíbené
