استغرق الأمر بضع سنوات من التفكير العميق، لكنني متحمس جدا أخيرا لمشاركة PROSPER: خوارزمية جميلة قائمة على الانحدار للتعلم المعزز من *مكافآت المعايير* تتعامل بقوة مع *التغذية الراجعة غير المتسقة* التي يقدمها حكام نماذج اللغة الكبيرة. لنعد إلى بلاك (بوي)! 🧵 (1/n)