DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Tulkitaan niin, että jälkiharjoituksen jälkeen painot ovat suunnilleen yhtä kaukana kaikista tehtävistä, joita esiharjoittelussa nähtiin (malli on nähnyt kaikki tehtävät, joten he ovat vetäneet ne itseään kohti). Joten tämä menetelmä vain häiritsee painoja ja näkee, mitkä häiriöt tuovat verkon lähemmäs tehtäväkohtaisia painoja. Se on kuin todella halpa Lora Tämä liittyy myös havaintoon, että jälkikoulutus ei lisää tietoa, vaan veistää esikoulutuksen jakauman

Painojen häiritseminen on oikeastaan verrattavissa satunnaisiin rullauksiin korkeissa lämpötiloissa. Uskon, että tämä voi olla iteratiivista (kuten grpo). häiriöpainot, joilla on suuri säde -> valitse parempia suorittajia -> säde pienenee tämän *pitäisi* parantaa tehtävän tarkkuutta @yule_gan kokeilit tätä?

35

Johtavat

Rankkaus

Suosikit