Contextos longos permitem horizontes longos. Horizontes longos permitem uma generalização mais forte de RL. O treinamento em tempo de teste tornará o horizonte efetivamente infinito. O que acontece com o desempenho de RL neste regime?