Nie śledziłem uważnie post-treningu ostatnio, ale wygląda na to, że DeepSeek idzie w pełni w kierunku nonkonformizmu w stosunku do norm społeczności: - nadal używa GRPO, ale zamiast tylko weryfikowalnych nagród stosuje odpowiednie modele nagród - nie tylko przycina wyższe, ale nadal utrzymuje termin KL-rozbieżności, ale naprawia go od podstaw, używając estymatora K3 z 2020 roku od Schulmana i in. - nie przełącza się na fp32 podczas wnioskowania ani nie dodaje jąder niezależnych od partii jak Thinky, i nie obsesjonuje się dziwactwami off-policy – zamiast tego dodaje binarną maskę używając KL-div jako progu dla podejrzanych negatywnych próbek, dzięki czemu model uczy się na własnych błędach z silniejszym sygnałem - zachowuje to samo kierowanie ekspertów, top-k i top-p podczas wnioskowania jak w trakcie treningu