新的編碼模型基本上具有無限的上下文,使用端到端的強化學習進行訓練