Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
📈 сейчас в тренде на alphaXiv
"∆Belief-RL: Внутреннее назначение кредита для долгосрочного взаимодействия"
Долгосрочное интерактивное RL жестоко, потому что вознаграждения редки, и неясно, какие конкретные вопросы или действия действительно привели к успеху, поэтому агенты либо не учатся, либо учатся хрупким эвристикам.
Чтобы улучшить это, ∆Belief-RL превращает "любопытство" в правильный сигнал долгосрочного обучения, вознаграждая агента каждый раз, когда взаимодействие увеличивает его веру в истинный ответ, при этом повышая вероятность модели на правильный результат.
Это дает плотное, пошаговое назначение кредита за задавание правильных вопросов, так что агенты быстрее учатся эффективному поведению поиска информации и обобщают на гораздо более долгие горизонты + реальные задачи, такие как обслуживание клиентов и персонализация, с гораздо меньшим количеством потраченных взаимодействий.

Топ
Рейтинг
Избранное
