DApp Store | Centrum Web3 pro události a hry

Populární témata

Každý chce pracovat na dlouhodobém kreditním zadání, ale toto je podle mě mnohem bezprostřednější a praktickější otázka: Jak optimálně agregovat více odměn do jednoho gradientu? Jak to závisí na odměňovacím hluku? Velmi skvělá práce :)

Je zřejmé, že věrnost odměn můžete zvýšit tím, že věnujete více výpočetní kapacity hodnocení. Současný přístup je položit rozhodčímu spoustu otázek ano/ne, převést to na 0/1 a pak... Průměrování? Thresholding? To vyhazuje spoustu částí, na které jsme investovali výpočetní čas

Abychom dostali odpověď, musíme rozhodnout, co je "optimální" — minmax očekávaný soudce? Průměrný soudce? Maximální pravděpodobnost alespoň K/N 1? "Odměna" je skvělá, když je doménově nativní (body, dolary), ale v reálném životě je to často něco, co si prostě vykompenzujeme pro hillclimbing

Je to fajn, ale hodně založené na herní teorii a nejsem si jistý, jestli je to nejrelevantnější příběh pro rubriku (kde netranzitivnost není tak důležitá). Ale je to otázka, která si zaslouží další zkoumání

Jak vnímám "čisté" multi-rubrikové uspořádání, předpokládáme, že existuje N binárních odměňovacích funkcí pro úkol, všechny jsou věrohodně splnitelné dokonalým řešením, ale naše pozorování odměn jsou mírně hlučná "maximalizovat pravděpodobnost dokonalého řešení" možná?

1,73K

Top

Hodnocení

Oblíbené