最近はトレーニング後の動きをあまり追っていませんが、DeepSeekはコミュニティの規範に反して完全に非規範的になっているようです: - GRPOは依然として使用していますが、検証可能な報酬のみではなく、適切な報酬モデルを用いる - 単に高く切り出すだけでなく + KL発散項は保持しつつ、Schulmanらの2020年のK3推定量を用いて基本原理から修正します。 - 推論時にFP32に切り替えたり、Thinkyのようにバッチ不変カーネルを追加したり、オフポリシーの癖にこだわらない。代わりにKL-divを使い、疑わしい負サンプルの閾値として二値マスクを追加し、モデルが自身の誤りからより強い信号で学習できるようにしている - 推論時もトレーニング時と同じエキスティックルーティング、Top-K、Top-Pを保持する