一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

哇！DeepSeekMath-V2 再次采用生成器-验证器架构！ ……为了实现自我可验证的数学推理，我们研究如何训练一个准确且可信的基于LLM的定理证明验证器。然后，我们使用验证器作为奖励模型训练一个证明生成器，并激励生成器在最终确定证明之前识别和解决尽可能多的问题。为了在生成器变得更强大时保持生成-验证差距，我们建议扩展验证计算，以自动标记新的难以验证的证明，从而创建训练数据以进一步改善验证器。我们得到的模型DeepSeekMath-V2展示了强大的定理证明能力，在IMO 2025和CMO 2024上获得了金级分数，并在Putnam 2024上以缩放的测试时间计算获得了近乎完美的118/120。尽管还有很多工作要做，但这些结果表明，自我可验证的数学推理是一个可行的研究方向，可能有助于开发更强大的数学AI系统。