Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Son zamanlarda eğitimden sonra eğitimi yakından takip etmedim ama DeepSeek'in topluluk normlarına tamamen uyumsuz bir şekilde hareket ettiğini görüyorum:
- hâlâ GRPO kullanır, ancak sadece doğrulanabilir ödüller yerine doğru ödül modelleri kullanılır
- sadece yukarı kırpılmaz, + KL-divergens terimini korur, ancak Schulman ve diğerlerinin 2020 K3 tahmin cihazını kullanarak ilk prensiplerden düzeltir.
- çıkarımda fp32'ye geçmez veya Thinky gibi toplu değişken çekirdekler eklemez ve politika dışı tuhaflıklara takıntılı olmaz – bunun yerine şüpheli negatif örnekler için eşik olarak KL-div kullanarak ikili bir maske ekler, böylece model kendi hatalarından daha güçlü bir sinyalle öğrenir
- Eğitimde olduğu gibi çıkarım sırasında da aynı uzman yönlendirme, top-k ve top-p özelliklerini korur
En İyiler
Sıralama
Takip Listesi

