Es hat ein paar Jahre intensiven Nachdenkens gedauert, aber ich bin super aufgeregt, endlich PROSPER zu teilen: einen schönen, regressionsbasierten Algorithmus für RL aus *Rubrik-Belohnungen*, der robust mit dem *inkonsistenten Feedback* umgeht, das LLM-Richter geben. Lass uns zurück zu Black(well) gehen! 🧵(1/n)