Lange contexten maken lange horizon mogelijk. Lange horizon maakt sterkere RL-generalizatie mogelijk. Training tijdens de testtijd zal de horizon effectief oneindig maken. Wat gebeurt er met de RL-prestaties in dit regime?