热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
哇!DeepSeekMath-V2
再次采用生成器-验证器架构!
……为了实现自我可验证的数学推理,我们研究如何训练一个准确且可信的基于LLM的定理证明验证器。然后,我们使用验证器作为奖励模型训练一个证明生成器,并激励生成器在最终确定证明之前识别和解决尽可能多的问题。为了在生成器变得更强大时保持生成-验证差距,我们建议扩展验证计算,以自动标记新的难以验证的证明,从而创建训练数据以进一步改善验证器。我们得到的模型DeepSeekMath-V2展示了强大的定理证明能力,在IMO 2025和CMO 2024上获得了金级分数,并在Putnam 2024上以缩放的测试时间计算获得了近乎完美的118/120。尽管还有很多工作要做,但这些结果表明,自我可验证的数学推理是一个可行的研究方向,可能有助于开发更强大的数学AI系统。

热门
排行
收藏

