Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Saya tidak mengikuti pasca-pelatihan dengan cermat akhir-akhir ini, tetapi sepertinya DeepSeek sepenuhnya tidak konformis terhadap norma-norma komunitas:
- masih menggunakan GRPO, tetapi alih-alih hanya hadiah yang dapat diverifikasi, gunakan model hadiah yang tepat
- tidak hanya memotong lebih tinggi + masih mempertahankan istilah KL-divergensi, tetapi memperbaikinya dari prinsip pertama menggunakan estimator K3 2020 dari Schulman dkk.
- tidak beralih ke fp32 pada inferensi atau menambahkan kernel batch-invarian seperti Thinky, dan tidak terobsesi dengan keanehan di luar kebijakan – sebaliknya menambahkan topeng biner menggunakan KL-div sebagai ambang batas untuk sampel negatif yang mencurigakan, sehingga model belajar dari kesalahannya sendiri dengan sinyal yang lebih kuat
- Mempertahankan perutean ahli, top-k, dan top-p yang sama selama inferensi seperti dalam pelatihan
Teratas
Peringkat
Favorit

