📈 сейчас в тренде на alphaXiv "∆Belief-RL: Внутреннее назначение кредита для долгосрочного взаимодействия" Долгосрочное интерактивное RL жестоко, потому что вознаграждения редки, и неясно, какие конкретные вопросы или действия действительно привели к успеху, поэтому агенты либо не учатся, либо учатся хрупким эвристикам. Чтобы улучшить это, ∆Belief-RL превращает "любопытство" в правильный сигнал долгосрочного обучения, вознаграждая агента каждый раз, когда взаимодействие увеличивает его веру в истинный ответ, при этом повышая вероятность модели на правильный результат. Это дает плотное, пошаговое назначение кредита за задавание правильных вопросов, так что агенты быстрее учатся эффективному поведению поиска информации и обобщают на гораздо более долгие горизонты + реальные задачи, такие как обслуживание клиентов и персонализация, с гораздо меньшим количеством потраченных взаимодействий.