Jeg har ikke fulgt nøye med etter opplæringen i det siste, men det ser ut til at DeepSeek går full nonkonformistisk mot fellesskapets normer: - bruker fortsatt GRPO, men i stedet for kun verifiserbare belønninger bruker de riktige belønningsmodellene - klipper ikke bare høyere + beholder fortsatt KL-divergensleddet, men fikser det fra første prinsipper ved hjelp av 2020 K3-estimatoren fra Schulman et al. - bytter ikke til fp32 ved inferens eller legger til batch-invariante kjerner som Thinky, og blir ikke besatt av uregelmessigheter utenfor policy – legger i stedet til en binær maske med KL-div som terskel for mistenkelige negative prøver, slik at modellen lærer av sine egne feil med et sterkere signal - bevarer samme ekspertruting, top-k og top-p under inferensen som under opplæring