Non ho seguito da vicino il post-addestramento ultimamente, ma sembra che DeepSeek stia andando a pieno regime non conformista contro le norme della comunità: - utilizza ancora GRPO, ma invece di utilizzare solo ricompense verificabili, usa modelli di ricompensa appropriati - non si limita a tagliare più in alto + mantiene comunque il termine KL-divergence, ma lo fissa dai primi principi utilizzando l'estimatore K3 del 2020 di Schulman et al. - non passa a fp32 durante l'inferenza né aggiunge kernel invarianti al batch come Thinky, e non si ossessiona per le stranezze off-policy – invece aggiunge una maschera binaria utilizzando KL-div come soglia per campioni negativi sospetti, in modo che il modello impari dai propri errori con un segnale più forte - preserva lo stesso routing esperto, top-k e top-p durante l'inferenza come in fase di addestramento