我們不小心建立了自我改善的 AI 系統。這篇來自牛津大學的論文證明了這一點。 大多數人認為模型的改進來自於更大的架構或精心設計的強化學習管道。 這項工作顯示了更微妙且更令人不安的事情。 如果你部署一個模型,讓用戶與之互動,過濾掉失敗的案例,並僅在成功的痕跡上進行微調,模型會開始自我改善其規劃能力。 沒有明確的獎勵、手工設計的課程和外部規劃者。 只有迭代。 作者稱這為迭代部署,並在像 Blocksworld、Rovers 和 Sokoban 這樣的受控規劃環境中進行測試。 設置很簡單: 1. 在規劃任務上部署一個 LLM 2. 只保留實際有效的計劃 3. 在這些有效的痕跡上微調下一個版本 重複 在僅僅五代之後,所有領域的規劃性能都翻了一番。在某些情況下,性能提高了 4 到 5 倍。更有趣的是,後來的世代發現的計劃比基礎模型長得多,顯示出真正的超出分佈的泛化,而不僅僅是格式化技巧或提示遵從。 這裡是關鍵的見解。 論文證明這個過程在數學上等同於具有二元獎勵信號的強化學習。 但獎勵函數從未被寫下。 ...