Saya tidak mengikuti pasca-pelatihan dengan cermat akhir-akhir ini, tetapi sepertinya DeepSeek sepenuhnya tidak konformis terhadap norma-norma komunitas: - masih menggunakan GRPO, tetapi alih-alih hanya hadiah yang dapat diverifikasi, gunakan model hadiah yang tepat - tidak hanya memotong lebih tinggi + masih mempertahankan istilah KL-divergensi, tetapi memperbaikinya dari prinsip pertama menggunakan estimator K3 2020 dari Schulman dkk. - tidak beralih ke fp32 pada inferensi atau menambahkan kernel batch-invarian seperti Thinky, dan tidak terobsesi dengan keanehan di luar kebijakan – sebaliknya menambahkan topeng biner menggunakan KL-div sebagai ambang batas untuk sampel negatif yang mencurigakan, sehingga model belajar dari kesalahannya sendiri dengan sinyal yang lebih kuat - Mempertahankan perutean ahli, top-k, dan top-p yang sama selama inferensi seperti dalam pelatihan