المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
لم أتابع ما بعد التدريب عن كثب مؤخرا، لكن يبدو أن DeepSeek يتجه نحو غير ملتزم تماما ضد معايير المجتمع:
- لا يزال يستخدم GRPO، ولكن بدلا من المكافآت القابلة للتحقق فقط، يستخدم نماذج المكافآت المناسبة
- لا يقتصر فقط على القطع الأعلى + يحتفظ بمصطلح التباعد في KL، بل يثبته من المبادئ الأولى باستخدام مقدر K3 لعام 2020 من شولمان وآخرين.
- لا يتحول إلى fp32 عند الاستدلال أو يضيف نوى ثابتة للدفعات مثل Thinky، ولا يشغل بالخصائص غير المباشرة – بل يضيف قناعا ثنائيا يستخدم KL-div كعتبة للعينات السلبية المشبوهة، لذا يتعلم النموذج من أخطائه الخاصة مع إشارة أقوى
- يحافظ على نفس التوجيه الخبير، وtop-k، وtop-p أثناء الاستدلال كما في التدريب
الأفضل
المُتصدِّرة
التطبيقات المفضلة

