关键问题:这是由于 RL + 测试时计算能力的提升(这可能无法持续),还是由于竞争加剧(因此可能会继续)?