Kaikki haluavat työskennellä pitkän aikavälin opintopisteiden jakamisen parissa, mutta mielestäni tämä on paljon välittömämpi + käytännöllisempi kysymys: Miten yhdistät optimaalisesti useita palkintoja yhdeksi gradientiksi? Miten tämä riippuu palkintokohinasta? Todella hienoa työtä :)
Gokul Swamy
Gokul Swamy17 tuntia sitten
Se vaati muutaman vuoden syvällistä pohdintaa, mutta olen todella innoissani saadessani vihdoin jakaa PROSPERin: kauniin, regressioon perustuvan algoritmin RL:lle *rubrikapalkintojen* perusteella, joka käsittelee vahvasti LLM-tuomareiden antaman *epäjohdonmukaisen palautteen*. Mennään takaisin mustaan (no)! 🧵 (1/n)
On selvää, että palkkion tarkkuutta voi parantaa käyttämällä enemmän laskentatehoa arvosteluun. Nykyinen paradigma on tuomarilta kysyttävä kasa kyllä/ei-kysymyksiä, muunnetaan 0/1:een, ja sitten... Keskiarvo? Kynnysarvo? Tämä heittää pois paljon osia, joihin käytimme laskentaa
Saadaksemme vastauksen, meidän täytyy päättää, mikä on "optimaalinen" — Minmax odotettu tuomari? Keskiverto tuomari? Maksimitodennäköisyys vähintään K/N 1:lle? "Palkinto" on loistava, kun se on domain-natiivi (pisteet, dollarit), mutta oikeassa elämässä käytännössä se on usein jotain, mitä korvaamme mäkikiipeilyllä
Tämä on siistiä, mutta hyvin peliteoriapainotteista, enkä ole varma, onko se relevantin tarina arviointikriteerien maailmaan (jossa intransitiivisuus ei oikeastaan ole huolenaihe). Mutta se on kysymys, joka ansaitsee lisää pohdintaa
Ajattelen "puhdasta" moniarviointikriteerijärjestelmää siten, että oletamme, että tehtävälle on N binääristä palkintofunktiota, kaikki ovat uskottavasti täytettävissä täydellisellä ratkaisulla, mutta palkkiohavainnot ovat hieman meluisia "maksimoida täydellisen ratkaisun todennäköisyys" ehkä?
1,7K