Každý chce pracovat na dlouhodobém kreditním zadání, ale toto je podle mě mnohem bezprostřednější a praktickější otázka: Jak optimálně agregovat více odměn do jednoho gradientu? Jak to závisí na odměňovacím hluku? Velmi skvělá práce :)
Gokul Swamy
Gokul SwamyPřed 20 h
Trvalo to několik let hlubokého přemýšlení, ale jsem nadšený, že konečně mohu sdílet PROSPER: krásný, regresní algoritmus pro RL od *rubric rewards*, který spolehlivě zvládá *nekonzistentní zpětnou vazbu*, kterou poskytují porotci LLM. Pojďme zpátky k černé (no)! 🧵 (1/n)
Je zřejmé, že věrnost odměn můžete zvýšit tím, že věnujete více výpočetní kapacity hodnocení. Současný přístup je položit rozhodčímu spoustu otázek ano/ne, převést to na 0/1 a pak... Průměrování? Thresholding? To vyhazuje spoustu částí, na které jsme investovali výpočetní čas
Abychom dostali odpověď, musíme rozhodnout, co je "optimální" — minmax očekávaný soudce? Průměrný soudce? Maximální pravděpodobnost alespoň K/N 1? "Odměna" je skvělá, když je doménově nativní (body, dolary), ale v reálném životě je to často něco, co si prostě vykompenzujeme pro hillclimbing
Je to fajn, ale hodně založené na herní teorii a nejsem si jistý, jestli je to nejrelevantnější příběh pro rubriku (kde netranzitivnost není tak důležitá). Ale je to otázka, která si zaslouží další zkoumání
Jak vnímám "čisté" multi-rubrikové uspořádání, předpokládáme, že existuje N binárních odměňovacích funkcí pro úkol, všechny jsou věrohodně splnitelné dokonalým řešením, ale naše pozorování odměn jsou mírně hlučná "maximalizovat pravděpodobnost dokonalého řešení" možná?
1,73K