热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我采用了类似的生成器-验证器方法来使用模型进行理论物理研究。
处于科学前沿的人类专家可以改进验证器模型,使其在现实世界研究问题上(不仅仅是人为设计的数学竞赛问题 = 可以在有限时间内由人类解决的良好问题)实现极强的自主操作能力。
DeepSeekMathV2
生成器与验证器之间的协同作用
证明生成器和验证器形成了一个自我改进的反馈循环。随着生成器产生越来越复杂的证明,这些证明挑战验证器,暴露出弱点,成为新的训练数据。最初,人类专家通过审查验证器标记的问题来指导验证器的再训练——这一过程通过为每个证明生成多个验证尝试而变得高效。这种“元验证”(检查验证器的发现而不是直接检查证明)对人类来说更容易,对大型语言模型(LLMs)来说也更易于学习。
通过扩大验证器分析的数量并在这些AI辅助的注释上进行训练,验证器最终达到了一个可靠性水平,在最终运行中不再需要人类干预——完成了自动证明生成与验证之间的闭环。

11月28日 01:26
哇!DeepSeekMath-V2
再次采用生成器-验证器架构!
……为了实现自我可验证的数学推理,我们研究如何训练一个准确且可信的基于LLM的定理证明验证器。然后,我们使用验证器作为奖励模型训练一个证明生成器,并激励生成器在最终确定证明之前识别和解决尽可能多的问题。为了在生成器变得更强大时保持生成-验证差距,我们建议扩展验证计算,以自动标记新的难以验证的证明,从而创建训练数据以进一步改善验证器。我们得到的模型DeepSeekMath-V2展示了强大的定理证明能力,在IMO 2025和CMO 2024上获得了金级分数,并在Putnam 2024上以缩放的测试时间计算获得了近乎完美的118/120。尽管还有很多工作要做,但这些结果表明,自我可验证的数学推理是一个可行的研究方向,可能有助于开发更强大的数学AI系统。

这描述了从使用现成模型的基本生成器-验证器管道过渡到验证器本身通过人类专家训练数据进行元验证改进的过程。

1.4K
热门
排行
收藏
