Tulkitaan niin, että jälkiharjoituksen jälkeen painot ovat suunnilleen yhtä kaukana kaikista tehtävistä, joita esiharjoittelussa nähtiin (malli on nähnyt kaikki tehtävät, joten he ovat vetäneet ne itseään kohti). Joten tämä menetelmä vain häiritsee painoja ja näkee, mitkä häiriöt tuovat verkon lähemmäs tehtäväkohtaisia painoja. Se on kuin todella halpa Lora Tämä liittyy myös havaintoon, että jälkikoulutus ei lisää tietoa, vaan veistää esikoulutuksen jakauman
Yulu Gan
Yulu Gan13.3. klo 23.41
Pelkkä Gaussin kohinan lisääminen LLM-malleihin (yksi vaihe – ei iteraatioita, ei oppimisnopeutta, ei gradientteja) ja niiden kokoonpano voi saavuttaa suorituskyvyn, joka on verrattavissa tai jopa parempi kuin tavallinen GRPO/PPO matemaattisessa päättelyssä, koodauksessa, kirjoittamisessa ja kemian tehtävissä. Kutsumme tätä algoritmia RandOptiksi. Varmistaaksemme, ettei tämä rajoitu tiettyihin malleihin, testasimme sitä Qwenillä, Llamalla, OLMo3:lla ja VLM:illä. Mikä tämän taustalla on? Havaitsimme, että Gaussin hakualueella esikoulutettujen LLM:ien ympärillä erilaiset tehtäväasiantuntijat ovat tiheästi hajautuneita — tätä järjestelmää kutsumme hermotiheiköiksi. Artikkeli: Koodi: Verkkosivusto:
Painojen häiritseminen on oikeastaan verrattavissa satunnaisiin rullauksiin korkeissa lämpötiloissa. Uskon, että tämä voi olla iteratiivista (kuten grpo). häiriöpainot, joilla on suuri säde -> valitse parempia suorittajia -> säde pienenee tämän *pitäisi* parantaa tehtävän tarkkuutta @yule_gan kokeilit tätä?
35