Zajęło mi kilka lat głębokiego myślenia, ale jestem super podekscytowany, że w końcu mogę podzielić się PROSPER: pięknym algorytmem opartym na regresji dla RL z *nagrodami rubrykowymi*, który solidnie radzi sobie z *niespójnymi informacjami zwrotnymi*, które dostarczają sędziowie LLM. Wróćmy do Black(well)! 🧵(1/n)