منشور جديد على تحجيم RL: يكشف التحليل الدقيق للمعايير العامة ل OpenAI أن مقاييس RL أسوأ بكثير من الاستدلال: لمطابقة كل توسيع نطاق 10x لحساب الاستدلال ، تحتاج إلى 100 ضعف حساب تدريب RL. السبب الوحيد الذي جعله فعالا من حيث التكلفة هو البدء من قاعدة صغيرة. 🧵