L'RL offline è dominato dal conservatorismo: sicuro, ma limita la generalizzazione. Nel nostro nuovo articolo, ci chiediamo: e se lo abbandonassimo e ci affidassimo al principio bayesiano per una generalizzazione adattiva? Sorprendentemente, i rollout a lungo termine - di solito evitati nell'RL basato su modelli - funzionano.