Офлайн реальний життя домінує консерватизм — безпечне, але обмежливе узагальнення. У нашій новій статті ми запитуємо: а що, якщо ми відмовимося від цього і покладемося на байєсівський принцип для адаптивного узагальнення? Дивно, але довгострокові запуски — зазвичай уникають у модельних RL — дозволяють це працювати. 🧵