📈 agora em tendência no alphaXiv "∆Belief-RL: Atribuição de Crédito Intrínseco para Interação de Longo Prazo" O RL interativo de longo prazo é brutal porque as recompensas são escassas e não está claro quais perguntas ou ações específicas realmente causaram sucesso, então os agentes ou não aprendem ou aprendem heurísticas frágeis. Para melhorar isso, o ∆Belief-RL transforma a "curiosidade" em um sinal de aprendizado adequado de longo prazo, recompensando um agente sempre que uma interação aumenta sua crença na resposta verdadeira, onde isso aumenta a probabilidade do modelo no resultado correto. Isso fornece uma atribuição de crédito densa, passo a passo, por fazer as perguntas certas, assim os agentes aprendem comportamentos eficazes de busca de informação mais rapidamente e generalizam para horizontes muito mais longos + tarefas reais como atendimento ao cliente e personalização com muito menos interações desperdiçadas.