Son zamanlarda eğitimden sonra eğitimi yakından takip etmedim ama DeepSeek'in topluluk normlarına tamamen uyumsuz bir şekilde hareket ettiğini görüyorum: - hâlâ GRPO kullanır, ancak sadece doğrulanabilir ödüller yerine doğru ödül modelleri kullanılır - sadece yukarı kırpılmaz, + KL-divergens terimini korur, ancak Schulman ve diğerlerinin 2020 K3 tahmin cihazını kullanarak ilk prensiplerden düzeltir. - çıkarımda fp32'ye geçmez veya Thinky gibi toplu değişken çekirdekler eklemez ve politika dışı tuhaflıklara takıntılı olmaz – bunun yerine şüpheli negatif örnekler için eşik olarak KL-div kullanarak ikili bir maske ekler, böylece model kendi hatalarından daha güçlü bir sinyalle öğrenir - Eğitimde olduğu gibi çıkarım sırasında da aynı uzman yönlendirme, top-k ve top-p özelliklerini korur