Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nie śledziłem uważnie post-treningu ostatnio, ale wygląda na to, że DeepSeek idzie w pełni w kierunku nonkonformizmu w stosunku do norm społeczności:
- nadal używa GRPO, ale zamiast tylko weryfikowalnych nagród stosuje odpowiednie modele nagród
- nie tylko przycina wyższe, ale nadal utrzymuje termin KL-rozbieżności, ale naprawia go od podstaw, używając estymatora K3 z 2020 roku od Schulmana i in.
- nie przełącza się na fp32 podczas wnioskowania ani nie dodaje jąder niezależnych od partii jak Thinky, i nie obsesjonuje się dziwactwami off-policy – zamiast tego dodaje binarną maskę używając KL-div jako progu dla podejrzanych negatywnych próbek, dzięki czemu model uczy się na własnych błędach z silniejszym sygnałem
- zachowuje to samo kierowanie ekspertów, top-k i top-p podczas wnioskowania jak w trakcie treningu
Najlepsze
Ranking
Ulubione

