Offline RL domineres av konservatisme – trygg, men begrensende generalisering. I vår nye artikkel spør vi: hva om vi dropper det og stoler på Bayesiansk prinsipp for adaptiv generalisering? Overraskende nok gjør langsiktige utrullinger – som vanligvis unngås i modellbasert RL – at det fungerer. 🧵