Viața reală offline este dominată de conservatorism – o generalizare sigură, dar limitativă. În noul nostru articol, ne întrebăm: ce-ar fi dacă am renunța la acest lucru și ne-am baza pe principiul bayesian pentru generalizarea adaptivă? Surprinzător, implementările pe termen lung – de obicei evitate în RL-ul bazat pe modele – fac ca totul să funcționeze. 🧵