一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我最近没有密切关注训练后的情况，但看起来 DeepSeek 正在完全反对社区规范： - 仍然使用 GRPO，但不仅仅是可验证的奖励，而是使用适当的奖励模型 - 不仅仅是剪切更高的值 + 仍然保留 KL 散度项，而是从第一原理出发，使用 Schulman 等人 2020 年的 K3 估计器进行修正 - 在推理时不切换到 fp32，也不添加像 Thinky 那样的批量不变内核，也不纠结于离线策略的怪癖 – 而是使用 KL 散度作为可疑负样本的阈值添加二进制掩码，因此模型可以从自己的错误中学习，信号更强 - 在推理时保留与训练时相同的专家路由、top-k 和 top-p