Des contextes longs permettent des horizons longs. Des horizons longs permettent une généralisation RL plus forte. L'entraînement en temps de test rendra l'horizon effectivement infini. Que se passe-t-il avec la performance RL dans ce régime ?