Ci sono voluti alcuni anni di riflessione profonda, ma sono super entusiasta di condividere finalmente PROSPER: un bellissimo algoritmo basato sulla regressione per RL da *rubric rewards* che gestisce in modo robusto il *feedback incoerente* fornito dai giudici LLM. Torniamo a Black(well)! 🧵(1/n)