Довгі контексти дозволяють мати довгі горизонти. Довгі горизонти дозволяють краще узагальнювати реалістичну лінію. Тренування під час тестування зробить горизонт фактично нескінченним. Що відбувається з продуктивністю RL у такому режимі?