قطعنا شوطا طويلا في استقرار تدريب اللعب الواقعي غير المتزامن ليس منذ وقت طويل، كان grpo الساذج يتعطل مع تجميع Torch بسبب عدم التطابق. لكن الآن يمكننا أن نذهب بعيدا جدا عن السياسة للتعامل مع التعلم المعزز الوكيل الكثير من التفاصيل المهمة في حساب خسارة Prime-RL، وتشغيل تحسينات الاستقرار الأخيرة في بعض الجولات يحدث فرقا كبيرا في عدم توافق KL
معظمها يأتي من @Grad62304977 وجدت ألفا في ورقة حديثة
‏‎118‏