热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
🚨中国的DeepSeek刚刚发布了唯一一个足够优秀的开源模型,能够在IMO中赢得金牌,还有一份必读报告!
关键思想源于Karpathy和其他人所谈论的内容:超越“最终答案强化学习”,进入一个生成器–验证器–元验证器的循环,完全基于自然语言。
– 验证器经过强化学习训练以评分证明。
– 元验证器检查验证器的批评。
– 生成器在验证器奖励信号上进行强化学习训练,以编写和自我检查更好的证明。
因为一切都存在于自然语言中(没有Lean),这个配方应该可以扩展到许多可验证的领域:科学、代码、任何检查比解决更容易的地方!

热门
排行
收藏

