Tässä on tämän viikon Ritual Research Digest, uutiskirje, joka kattaa viimeisimmät tiedot LLM:ien maailmasta ja Crypto x AI:n risteyskohdasta. Viikoittain julkaistaan satoja lehtiä, joten on mahdotonta pysyä ajan tasalla uusimmasta uutisesta. Me teemme lukemisen, jotta sinun ei tarvitse.
RefineBench: Kielimallien hienosäätökyvyn arviointi tarkistuslistojen avulla Tässä artikkelissa esitellään RefineBench, benchmarkin, joka arvioi LM:ien hienosäätökykyjä eri tilanteissa. Se sisältää sekä vapaamuotoisia että tarkkuuteen perustuvia tehtäviä.
Se kattaa 11 alaa humanistisissa tieteissä, yhteiskuntatieteissä, oikeustieteessä ja STEM-aloilla. Tätä arvioidaan kahdella tavalla: itsensä hienosäätönä ja ohjattuna hienosäätönä. Itsensä kehittämisessä jopa rajaseudun LM:t saavat suhteellisen matalat pisteet, kun taas ohjattu jalostus on erittäin tehokasta.
ThetaEvolve: Testiaikainen oppiminen avoimista ongelmista Artikkelissa ehdotetaan avoimen lähdekoodin putkistoa haastavien ongelmien ratkaisemiseksi. Ne osoittavat, että DeepSeek-R1-0528-Qwen3-8B parantaa joidenkin AlphaEvolvessa käsiteltyjen avoimien ongelmien parhaiten tunnettuja rajoja.
RL ThetaEvolvella päihittää pelkästään päättelyyn perustuvat suoritukset kahdessa OSS-mallissa ja neljässä haastavassa ongelmassa. Ne osoittavat, että malli saa ei-triviaaleja ominaisuuksia, kuten paremmat pisteet ja nopeampi edistyminen osoittavat. Tämä parannus siirtyy myös muihin tehtäviin.
Miten RL:n jälkeinen koulutus edistää taitojen muodostamista? Tapaustutkimus Countdownista Artikkelissa tutkitaan, miten RL voi auttaa mallia oppimaan kirjoittamisen taitoja laskurin avulla. Ne purkavat pituuden ja sommittelullisen yleistyksen.
He havaitsevat, että: 1) Mallit yleistetään suurempiin pulmien kokoihin 2) Kuviorakenne määrittää vaikeustason 3) Mallit yleistävät näkymättömiin kuvioihin Lopulta osoittaen, että RL:n jälkeinen koulutus auttaa pituusyleistyksessä ja osittaisessa koostumuksen yleistyksessä
DeepSeek-V3.2: Avoimien suurten kielimallien rajojen rikkominen Artikkelissa esitellään DS-V3.2, joka hyödyntää Deepseekin harvaa huomiota laskennallisen monimutkaisuuden vähentämiseksi ja suorituskyvyn säilyttämiseksi pitkissä tilanteissa.
RL-postrainingissa käytetään erikoistunutta tislausta (per domain expert -mallit tislataan dataa lopullisen tarkistuspisteen kouluttamiseksi) ja sekoitettua RL-koulutusta (yhdistämispäättely, agentti ja ihmisen kohdistus yhdessä vaiheessa). He kouluttavat erikoismallia käyttäen DSmath-V2:ta, saavuttaen kultaa mielestäni arvossa.
Seuraa meitä @ritualdigest saadaksesi lisätietoja kaikesta krypto x AI -tutkimuksesta ja @ritualnet oppia lisää siitä, mitä Ritual rakentaa.
370