يا إلهي، يا له من ذكاء عظيم، سكان RL كانوا يطبخون بجد عنق زجاجة رئيسي في التعلم المستمر هو أنه لا توجد طريقة عامة لمقارنة وتقييم الطرق عبر مجالات المهام أعتقد أن @carnot_cyclist قد حل هذا
لن أحرق القصة لأنني أريد منه أن يكتب تدوينة رائعة عنها. لكن واو، إنها مجرد صياغة نظيفة جدا يمكن استخدامها في أشياء كثيرة مختلفة، ولديه بعض النتائج التجريبية المبكرة الجميلة لعرضها
‏‎149‏