A fost nevoie de câțiva ani de gândire profundă, dar sunt extrem de entuziasmat să împărtășesc în sfârșit PROSPER: un algoritm frumos, bazat pe regresiune, pentru RL, de la *recompense cu rubrică* care gestionează robust *feedback-ul inconsistent* pe care îl oferă judecătorii LLM. Hai să ne întoarcem la Negru (ei bine)! 🧵 (1/n)