天啊……這篇來自MIT的論文靜靜地解釋了模型如何在完全卡住的情況下自我學習推理 🤯 核心思想看似簡單: 推理失敗是因為學習沒有任何依據可依賴。 當模型的成功率降到接近零時,強化學習就無法運作。沒有獎勵信號。沒有梯度。沒有改進。模型並不是「推理能力差」——它被困在可學習性的邊緣之外。 這篇論文重新框架了這個問題。 他們不再問「我們如何讓模型解決更難的問題?」 而是問:「模型如何創造可以學習的問題?」 這就是SOAR的用武之地。 SOAR將一個預訓練的模型分為兩個角色: • 一個嘗試極難目標問題的學生 • 一個為學生生成新訓練問題的老師 但這個限制是殘酷的。 老師不會因為聰明的問題、多樣性或現實性而獲得獎勵。 只有當學生在一組固定的真實評估問題上表現改善時,才會獲得獎勵。 沒有改進?沒有獎勵。 這完全改變了動態。 ...