📈 teraz na czołowej pozycji na alphaXiv "∆Belief-RL: Wewnętrzne przypisanie kredytu dla interakcji długoterminowych" Długoterminowe interaktywne RL jest brutalne, ponieważ nagrody są rzadkie, a nie jest jasne, które konkretne pytania lub działania faktycznie spowodowały sukces, więc agenci albo się nie uczą, albo uczą się kruchych heurystyk. Aby to poprawić, ∆Belief-RL przekształca „ciekawość” w odpowiedni sygnał uczenia się długoterminowego, nagradzając agenta za każdym razem, gdy interakcja zwiększa jego wiarę w prawidłową odpowiedź, co zwiększa prawdopodobieństwo modelu na poprawny wynik. To daje gęste, krok po kroku przypisanie kredytu za zadawanie właściwych pytań, dzięki czemu agenci szybciej uczą się skutecznego zachowania poszukującego informacji i generalizują na znacznie dłuższe horyzonty + rzeczywiste zadania, takie jak obsługa klienta i personalizacja, z dużo mniejszą liczbą zmarnowanych interakcji.