一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我最近沒有密切關注訓練後的情況，但看起來 DeepSeek 正在完全違背社區規範： - 仍然使用 GRPO，但不僅僅是可驗證的獎勵，而是使用適當的獎勵模型 - 不僅僅是剪裁更高的值，還保留 KL 散度項，但從第一原則出發，使用 Schulman 等人在 2020 年提出的 K3 估計器進行修正 - 在推理時不會切換到 fp32 或添加批次不變的內核像 Thinky，也不會過於關注離政策的怪癖 – 而是使用 KL-div 作為可疑負樣本的閾值添加二元掩碼，這樣模型就能從自己的錯誤中學習，並獲得更強的信號 - 在推理過程中保留與訓練時相同的專家路由、top-k 和 top-p