热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我最近没有密切关注训练后的情况,但看起来 DeepSeek 正在完全反对社区规范:
- 仍然使用 GRPO,但不仅仅是可验证的奖励,而是使用适当的奖励模型
- 不仅仅是剪切更高的值 + 仍然保留 KL 散度项,而是从第一原理出发,使用 Schulman 等人 2020 年的 K3 估计器进行修正
- 在推理时不切换到 fp32,也不添加像 Thinky 那样的批量不变内核,也不纠结于离线策略的怪癖 – 而是使用 KL 散度作为可疑负样本的阈值添加二进制掩码,因此模型可以从自己的错误中学习,信号更强
- 在推理时保留与训练时相同的专家路由、top-k 和 top-p
热门
排行
收藏

