關鍵問題:這是由於 RL + 測試時計算能力的提升(這可能無法持續),還是因為競爭加劇(因此可能會持續下去)?