Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jeg har ikke fulgt nøye med etter opplæringen i det siste, men det ser ut til at DeepSeek går full nonkonformistisk mot fellesskapets normer:
- bruker fortsatt GRPO, men i stedet for kun verifiserbare belønninger bruker de riktige belønningsmodellene
- klipper ikke bare høyere + beholder fortsatt KL-divergensleddet, men fikser det fra første prinsipper ved hjelp av 2020 K3-estimatoren fra Schulman et al.
- bytter ikke til fp32 ved inferens eller legger til batch-invariante kjerner som Thinky, og blir ikke besatt av uregelmessigheter utenfor policy – legger i stedet til en binær maske med KL-div som terskel for mistenkelige negative prøver, slik at modellen lærer av sine egne feil med et sterkere signal
- bevarer samme ekspertruting, top-k og top-p under inferensen som under opplæring
Topp
Rangering
Favoritter

