Sklep DApp | Centrum Web3 dla wydarzeń i gier

wszyscy chcą pracować nad długoterminowym przypisaniem kredytów, ale to jest znacznie bardziej bezpośrednie i praktyczne pytanie IMO: jak optymalnie agregować wiele nagród w jeden gradient? jak to zależy od szumów nagród? bardzo fajna praca :)

oczywiste jest, że możesz zwiększyć wierność nagród, wydając więcej mocy obliczeniowej na ocenianie. obecny paradygmat polega na zadawaniu sędziemu wielu pytań tak/nie, konwertowaniu na 0/1, a następnie… uśrednianiu? ustalaniu progu? to marnuje wiele bitów, na które wydaliśmy moc obliczeniową.

aby uzyskać odpowiedź, musimy zdecydować, co oznacza „optymalne” — minimalizować maksymalne oczekiwania sędziego? średni sędzia? maksymalne prawdopodobieństwo przynajmniej K/N 1’s? „nagroda” jest świetna, gdy jest natywna dla dziedziny (punkty, dolary), ale w praktyce RL często jest czymś, co po prostu wymyślamy dla wspinaczki górskiej

to jest fajne, ale bardzo obciążone teorią gier, i nie jestem pewien, czy to najbardziej odpowiednia historia dla tego kontekstu (gdzie nieprzechodniość nie jest naprawdę problemem). ale to pytanie zasługuje na dalsze zbadanie

sposób, w jaki myślę o "czystym" ustawieniu wielokryterialnym, polega na założeniu, że istnieje N binarnych funkcji nagrody dla zadania, które wszystkie mogą być prawdopodobnie zaspokojone przez idealne rozwiązanie, ale nasze obserwacje nagród są nieco szumne "może maksymalizować prawdopodobieństwo idealnego rozwiązania"?