Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
wszyscy chcą pracować nad długoterminowym przypisaniem kredytów, ale to jest znacznie bardziej bezpośrednie i praktyczne pytanie IMO:
jak optymalnie agregować wiele nagród w jeden gradient? jak to zależy od szumów nagród?
bardzo fajna praca :)

17 godz. temu
Zajęło mi kilka lat głębokiego myślenia, ale jestem super podekscytowany, że w końcu mogę podzielić się PROSPER: pięknym algorytmem opartym na regresji dla RL z *nagrodami rubrykowymi*, który solidnie radzi sobie z *niespójnymi informacjami zwrotnymi*, które dostarczają sędziowie LLM. Wróćmy do Black(well)! 🧵(1/n)

oczywiste jest, że możesz zwiększyć wierność nagród, wydając więcej mocy obliczeniowej na ocenianie. obecny paradygmat polega na zadawaniu sędziemu wielu pytań tak/nie, konwertowaniu na 0/1, a następnie… uśrednianiu? ustalaniu progu?
to marnuje wiele bitów, na które wydaliśmy moc obliczeniową.
aby uzyskać odpowiedź, musimy zdecydować, co oznacza „optymalne” — minimalizować maksymalne oczekiwania sędziego? średni sędzia? maksymalne prawdopodobieństwo przynajmniej K/N 1’s?
„nagroda” jest świetna, gdy jest natywna dla dziedziny (punkty, dolary), ale w praktyce RL często jest czymś, co po prostu wymyślamy dla wspinaczki górskiej
to jest fajne, ale bardzo obciążone teorią gier, i nie jestem pewien, czy to najbardziej odpowiednia historia dla tego kontekstu (gdzie nieprzechodniość nie jest naprawdę problemem). ale to pytanie zasługuje na dalsze zbadanie

sposób, w jaki myślę o "czystym" ustawieniu wielokryterialnym, polega na założeniu, że istnieje N binarnych funkcji nagrody dla zadania, które wszystkie mogą być prawdopodobnie zaspokojone przez idealne rozwiązanie, ale nasze obserwacje nagród są nieco szumne
"może maksymalizować prawdopodobieństwo idealnego rozwiązania"?
1,7K
Najlepsze
Ranking
Ulubione
