V poslední době jsem nesledoval post-training, ale vypadá to, že DeepSeek se plně nekonformně vyhýbá komunitním normám: - stále používá GRPO, ale místo pouze ověřitelných odměn používá správné modely odměn - nejenže přestřihuje + a stále si zachovává člen KL-divergence, ale opravuje jej z prvních principů pomocí odhadce K3 2020 od Schulmana a kol. - nepřepíná na fp32 při inferenci ani nepřidává jádra invariantní na dávky jako Thinky a neposedne se zabývá zvláštnostmi mimo politiku – místo toho přidává binární masku používající KL-div jako práh pro podezřelé negativní vzorky, takže model se učí ze svých vlastních chyb silnějším signálem - zachovává stejné expertní směrování, top-k a top-p během inference jako při tréninku