Lange kontekster muliggjør lange horisonter. Lange horisonter muliggjør sterkere generalisering i virkeligheten. Trening i testtid vil gjøre horisonten i praksis uendelig. Hva skjer med RL-ytelsen i dette regimet?