年中时我过于悲观。认为需要超越RL的改进才能更进一步,但我错了。我还没有在玩具环境之外测试过claude代码,但当codex变得优秀时,我尝试了一下,显然我们已经稳稳地进入了起飞阶段。