Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
V poslední době jsem nesledoval post-training, ale vypadá to, že DeepSeek se plně nekonformně vyhýbá komunitním normám:
- stále používá GRPO, ale místo pouze ověřitelných odměn používá správné modely odměn
- nejenže přestřihuje + a stále si zachovává člen KL-divergence, ale opravuje jej z prvních principů pomocí odhadce K3 2020 od Schulmana a kol.
- nepřepíná na fp32 při inferenci ani nepřidává jádra invariantní na dávky jako Thinky a neposedne se zabývá zvláštnostmi mimo politiku – místo toho přidává binární masku používající KL-div jako práh pro podezřelé negativní vzorky, takže model se učí ze svých vlastních chyb silnějším signálem
- zachovává stejné expertní směrování, top-k a top-p během inference jako při tréninku
Top
Hodnocení
Oblíbené

