我最近没有密切关注训练后的情况,但看起来 DeepSeek 正在完全反对社区规范: - 仍然使用 GRPO,但不仅仅是可验证的奖励,而是使用适当的奖励模型 - 不仅仅是剪切更高的值 + 仍然保留 KL 散度项,而是从第一原理出发,使用 Schulman 等人 2020 年的 K3 估计器进行修正 - 在推理时不切换到 fp32,也不添加像 Thinky 那样的批量不变内核,也不纠结于离线策略的怪癖 – 而是使用 KL 散度作为可疑负样本的阈值添加二进制掩码,因此模型可以从自己的错误中学习,信号更强 - 在推理时保留与训练时相同的专家路由、top-k 和 top-p