熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
天啊……這篇來自MIT的論文靜靜地解釋了模型如何在完全卡住的情況下自我學習推理 🤯
核心思想看似簡單:
推理失敗是因為學習沒有任何依據可依賴。
當模型的成功率降到接近零時,強化學習就無法運作。沒有獎勵信號。沒有梯度。沒有改進。模型並不是「推理能力差」——它被困在可學習性的邊緣之外。
這篇論文重新框架了這個問題。
他們不再問「我們如何讓模型解決更難的問題?」
而是問:「模型如何創造可以學習的問題?」
這就是SOAR的用武之地。
SOAR將一個預訓練的模型分為兩個角色:
• 一個嘗試極難目標問題的學生
• 一個為學生生成新訓練問題的老師
但這個限制是殘酷的。
老師不會因為聰明的問題、多樣性或現實性而獲得獎勵。
只有當學生在一組固定的真實評估問題上表現改善時,才會獲得獎勵。
沒有改進?沒有獎勵。
這完全改變了動態。
...

熱門
排行
收藏
