Contesti lunghi consentono orizzonti lunghi. Orizzonti lunghi consentono una generalizzazione più forte del RL. L'addestramento durante il test renderà l'orizzonte effettivamente infinito. Cosa succede alle prestazioni del RL in questo regime?