Det tok noen år med dyp tenkning, men jeg er supergira på endelig å dele PROSPER: en vakker, regresjonsbasert algoritme for RL fra *rubrikkbelønninger* som robust håndterer *inkonsekvent tilbakemelding* som LLM-dommere gir. La oss gå tilbake til Black (vel)! 🧵 (1/n)