Ik heb de post-training de laatste tijd niet nauwlettend gevolgd, maar het lijkt erop dat DeepSeek volledig non-conformistisch is ten opzichte van de normen van de gemeenschap: - gebruikt nog steeds GRPO, maar in plaats van alleen verifieerbare beloningen gebruikt het juiste beloningsmodellen - knipt niet alleen hoger + houdt nog steeds de KL-divergentie-term, maar fixeert het vanuit de eerste principes met behulp van de 2020 K3-schatting van Schulman et al. - schakelt niet over naar fp32 tijdens inferentie of voegt batch-invariante kernels toe zoals Thinky, en maakt zich niet druk om off-policy eigenaardigheden – in plaats daarvan voegt het een binaire maskering toe met behulp van KL-div als drempel voor verdachte negatieve monsters, zodat het model van zijn eigen fouten leert met een sterkere signaal - behoudt dezelfde expert routing, top-k en top-p tijdens inferentie zoals in training