غالبا ما يضيع التعلم المعزز إشارات مفيدة عند خطوات وسيطة، أو كما @karpathy، الأمر يشبه "امتصاص الإشراف من خلال شفاطة". MiniMax M2.5 يحل هذه المشكلة بمكافآت عملية لكل رمز. النتيجة هي أداء الترميز الحدودي لا يقل عن عشر تكلفة الترميز المغلق المصدر. @thealexker يشرح كيف تعمل هذه الآلية وكيف يتفوق M2.5 في العمل المعرفي العام. اقرأ عنها هنا: