Det tog några år av djupt tänkande, men jag är superglad att äntligen dela PROSPER: en vacker, regressionsbaserad algoritm för RL från *matrisbelöningar* som robust hanterar den *inkonsekventa feedbacken* som LLM-domare ger. Låt oss gå tillbaka till Black (ja)! 🧵 (1/n)