Konteks yang panjang memungkinkan cakrawala yang panjang. Cakrawala yang panjang memungkinkan generalisasi RL yang lebih kuat. Pelatihan waktu tes akan membuat cakrawala secara efektif tidak terbatas. Apa yang terjadi dengan kinerja RL dalam rezim ini?