📈 зараз у тренді на alphaXiv "∆Belief-RL: Внутрішньое призначення кредитів для довготривалої взаємодії" Довготривалий інтерактивний RL — це жорстко, бо винагород мало, і незрозуміло, які саме питання чи дії справді принесли успіх, тому агенти або не вчаться, або вивчають крихкі евристики. Щоб покращити це, ∆Віра-RL перетворює «цікавість» на правильний сигнал довгого навчання, винагороджуючи агента щоразу, коли взаємодія підвищує його віру в істинну відповідь, що підвищує ймовірність моделі щодо правильного результату. Це дає щільне, покрокове призначення кредитів за правильні запитання, щоб агенти швидше засвоїли ефективну поведінку у пошуку інформації та узагальнювали на значно довші горизонти + реальні завдання, такі як обслуговування клієнтів і персоналізація, з набагато меншою кількістю марних взаємодій.