Długie konteksty umożliwiają długie horyzonty. Długie horyzonty umożliwiają silniejszą generalizację RL. Szkolenie w czasie testu sprawi, że horyzont będzie efektywnie nieskończony. Co się stanie z wydajnością RL w tym reżimie?