متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

قطعنا شوطا طويلا في استقرار تدريب اللعب الواقعي غير المتزامن ليس منذ وقت طويل، كان grpo الساذج يتعطل مع تجميع Torch بسبب عدم التطابق. لكن الآن يمكننا أن نذهب بعيدا جدا عن السياسة للتعامل مع التعلم المعزز الوكيل الكثير من التفاصيل المهمة في حساب خسارة Prime-RL، وتشغيل تحسينات الاستقرار الأخيرة في بعض الجولات يحدث فرقا كبيرا في عدم توافق KL

معظمها يأتي من @Grad62304977 وجدت ألفا في ورقة حديثة

‏‎118‏

الأفضل

المُتصدِّرة

التطبيقات المفضلة