Los contextos largos permiten horizontes largos. Los horizontes largos permiten una generalización más fuerte en RL. El entrenamiento en el momento de prueba hará que el horizonte sea prácticamente infinito. ¿Qué ocurre con el rendimiento de la vida real en este régimen?