我最近沒有密切關注訓練後的情況,但看起來 DeepSeek 正在完全違背社區規範: - 仍然使用 GRPO,但不僅僅是可驗證的獎勵,而是使用適當的獎勵模型 - 不僅僅是剪裁更高的值,還保留 KL 散度項,但從第一原則出發,使用 Schulman 等人在 2020 年提出的 K3 估計器進行修正 - 在推理時不會切換到 fp32 或添加批次不變的內核像 Thinky,也不會過於關注離政策的怪癖 – 而是使用 KL-div 作為可疑負樣本的閾值添加二元掩碼,這樣模型就能從自己的錯誤中學習,並獲得更強的信號 - 在推理過程中保留與訓練時相同的專家路由、top-k 和 top-p