熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我最近沒有密切關注訓練後的情況,但看起來 DeepSeek 正在完全違背社區規範:
- 仍然使用 GRPO,但不僅僅是可驗證的獎勵,而是使用適當的獎勵模型
- 不僅僅是剪裁更高的值,還保留 KL 散度項,但從第一原則出發,使用 Schulman 等人在 2020 年提出的 K3 估計器進行修正
- 在推理時不會切換到 fp32 或添加批次不變的內核像 Thinky,也不會過於關注離政策的怪癖 – 而是使用 KL-div 作為可疑負樣本的閾值添加二元掩碼,這樣模型就能從自己的錯誤中學習,並獲得更強的信號
- 在推理過程中保留與訓練時相同的專家路由、top-k 和 top-p
熱門
排行
收藏

