熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
🚨中國的 DeepSeek 剛剛推出了唯一一個足夠擅長數學的開源模型,能夠贏得 IMO 金獎,還有一份必讀報告!
關鍵思想來自 Karpathy 和其他人所談論的內容:超越「最終答案強化學習」,進入純語言中的生成器–驗證器–元驗證器循環。
– 驗證器經過強化學習訓練以評分證明。
– 元驗證器檢查驗證器的批評。
– 生成器根據驗證器的獎勵信號進行強化學習訓練,以撰寫和自我檢查更好的證明。
因為一切都存在於自然語言中(沒有 Lean),這個配方應該能擴展到許多可驗證的領域:科學、代碼,任何檢查比解決更容易的地方!

熱門
排行
收藏

