لم أتابع ما بعد التدريب عن كثب مؤخرا، لكن يبدو أن DeepSeek يتجه نحو غير ملتزم تماما ضد معايير المجتمع: - لا يزال يستخدم GRPO، ولكن بدلا من المكافآت القابلة للتحقق فقط، يستخدم نماذج المكافآت المناسبة - لا يقتصر فقط على القطع الأعلى + يحتفظ بمصطلح التباعد في KL، بل يثبته من المبادئ الأولى باستخدام مقدر K3 لعام 2020 من شولمان وآخرين. - لا يتحول إلى fp32 عند الاستدلال أو يضيف نوى ثابتة للدفعات مثل Thinky، ولا يشغل بالخصائص غير المباشرة – بل يضيف قناعا ثنائيا يستخدم KL-div كعتبة للعينات السلبية المشبوهة، لذا يتعلم النموذج من أخطائه الخاصة مع إشارة أقوى - يحافظ على نفس التوجيه الخبير، وtop-k، وtop-p أثناء الاستدلال كما في التدريب