天哪……这篇来自MIT的论文悄悄解释了模型如何在完全卡住时自我学习推理 🤯 核心思想看似简单: 推理失败是因为学习没有任何依附点。 当模型的成功率降到接近零时,强化学习就停止工作。没有奖励信号。没有梯度。没有改进。模型并不是“推理差”——它被困在可学习性的边缘之外。 这篇论文重新框定了问题。 与其问“我们如何让模型解决更难的问题?” 不如问:“模型如何创造可以学习的问题?” 这就是SOAR的作用。 SOAR将一个预训练模型分成两个角色: • 一个尝试极难目标问题的学生 • 一个为学生生成新训练问题的老师 但这个约束是残酷的。 老师不会因为聪明的问题、多样性或现实性而获得奖励。 只有当学生在一组固定的真实评估问题上的表现改善时,才会获得奖励。 没有改进?没有奖励。 这完全改变了动态。 ...