📈 jetzt im Trend auf alphaXiv "∆Belief-RL: Intrinsische Kreditvergabe für langfristige Interaktionen" Langfristige interaktive RL ist brutal, weil Belohnungen spärlich sind und unklar ist, welche spezifischen Fragen oder Aktionen tatsächlich zum Erfolg geführt haben, sodass Agenten entweder nicht lernen oder brüchige Heuristiken entwickeln. Um dies zu verbessern, verwandelt ∆Belief-RL "Neugier" in ein richtiges langfristiges Lernsignal, indem es einen Agenten belohnt, wann immer eine Interaktion seinen Glauben an die wahre Antwort erhöht, wobei es die eigene Wahrscheinlichkeit des Modells für das richtige Ergebnis steigert. Dies ermöglicht eine dichte, schrittweise Kreditvergabe für das Stellen der richtigen Fragen, sodass Agenten effektives informationssuchendes Verhalten schneller lernen und auf viel längere Horizonte + reale Aufgaben wie Kundenservice und Personalisierung mit deutlich weniger verschwendeten Interaktionen verallgemeinern.