Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ik heb de post-training de laatste tijd niet nauwlettend gevolgd, maar het lijkt erop dat DeepSeek volledig non-conformistisch is ten opzichte van de normen van de gemeenschap:
- gebruikt nog steeds GRPO, maar in plaats van alleen verifieerbare beloningen gebruikt het juiste beloningsmodellen
- knipt niet alleen hoger + houdt nog steeds de KL-divergentie-term, maar fixeert het vanuit de eerste principes met behulp van de 2020 K3-schatting van Schulman et al.
- schakelt niet over naar fp32 tijdens inferentie of voegt batch-invariante kernels toe zoals Thinky, en maakt zich niet druk om off-policy eigenaardigheden – in plaats daarvan voegt het een binaire maskering toe met behulp van KL-div als drempel voor verdachte negatieve monsters, zodat het model van zijn eigen fouten leert met een sterkere signaal
- behoudt dezelfde expert routing, top-k en top-p tijdens inferentie zoals in training
Boven
Positie
Favorieten

