📈 agora em alta no alphaXiv "∆Crença-RL: Atribuição Intrínseca de Créditos para Interação de Longo Prazo" O RL interativo de longo prazo é brutal porque as recompensas são escassas e não está claro quais perguntas ou ações específicas realmente causaram sucesso, então os agentes ou não aprendem ou aprendem heurísticas frágeis. Para melhorar isso, ∆Belief-RL transforma a "curiosidade" em um sinal adequado de aprendizado de longo horizonte ao recompensar um agente sempre que uma interação aumenta sua crença na resposta verdadeira, aumentando a probabilidade do próprio modelo sobre o resultado correto. Isso proporciona uma atribuição densa e passo a passo por fazer as perguntas certas, para que os agentes aprendam comportamentos eficazes de busca por informações mais rápido e generalizem para horizontes muito mais longos + tarefas reais como atendimento ao cliente e personalização, com muito menos interações desperdiçadas.