热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
天哪……这篇来自MIT的论文悄悄解释了模型如何在完全卡住时自我学习推理 🤯
核心思想看似简单:
推理失败是因为学习没有任何依附点。
当模型的成功率降到接近零时,强化学习就停止工作。没有奖励信号。没有梯度。没有改进。模型并不是“推理差”——它被困在可学习性的边缘之外。
这篇论文重新框定了问题。
与其问“我们如何让模型解决更难的问题?”
不如问:“模型如何创造可以学习的问题?”
这就是SOAR的作用。
SOAR将一个预训练模型分成两个角色:
• 一个尝试极难目标问题的学生
• 一个为学生生成新训练问题的老师
但这个约束是残酷的。
老师不会因为聪明的问题、多样性或现实性而获得奖励。
只有当学生在一组固定的真实评估问题上的表现改善时,才会获得奖励。
没有改进?没有奖励。
这完全改变了动态。
...

热门
排行
收藏
