Het heeft een paar jaar van diep nadenken gekost, maar ik ben super enthousiast om eindelijk PROSPER te delen: een prachtige, regressie-gebaseerde algoritme voor RL van *rubriekbeloningen* dat robuust omgaat met de *inconsistente feedback* die LLM-rechters geven. Laten we teruggaan naar Black(well)! 🧵(1/n)