Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tässä on tämän viikon Ritual Research Digest, uutiskirje, joka kattaa viimeisimmät tiedot LLM:ien maailmasta ja Crypto x AI:n risteyskohdasta.
Viikoittain julkaistaan satoja lehtiä, joten on mahdotonta pysyä ajan tasalla uusimmasta uutisesta. Me teemme lukemisen, jotta sinun ei tarvitse.

Critique-RL: Kielimallien kouluttaminen kritiikkiin kaksivaiheisen vahvistusoppimisen avulla
Tämän artikkelin tavoitteena on kehittää kriittisiä kielimalleja, jotka eivät perustu vahvempaan valvontaan tai oraakkelin palkitsemistoimintoon testauksen aikana.

He ehdottavat Critique-RL:ää, 2-vaiheista RL-lähestymistapaa, online-RL-lähestymistapaa, joka perustuu näyttelijän ja kriitikon vuorovaikutukseen kritiikkimallien kehittämiseksi.
Laajat kokeet osoittavat, että menetelmä ylittää lähtötasot ja tuottaa paremman suorituskyvyn Qwen 2.5 7B:llä.

PACR: Asteittain nouseva itseluottamuspalkkio LLM-päättelystä
Tässä työssä kysytään, voidaanko mallista saada vaiheittaista ohjausta. He ottavat käyttöön PACR:n, tiheän, malliin liittyvän signaalin, joka muuntaa luottamuksen kasvun RL:n vaiheittaiseksi valvonnaksi.



He havaitsivat muun muassa, että johdonmukainen luottamuksen nousu korreloi vahvasti lopullisen vastauksen oikeellisuuden kanssa.
Useissa päättelyn vertailuarvoissa RLVR:n lisääminen PACR-menetelmillä parantaa harjoittelun dynamiikkaa ja lopullista suorituskykyä.

Manuaalisen dekoodauksen loppu: Kohti aidosti päästä päähän -kielimalleja
Tässä artikkelissa ehdotetaan AutoDecoa, arkkitehtuuria, joka luo "päästä päähän" LM:n, joka pystyy ohjaamaan omaa dekoodausprosessiaan. Ne täydentävät muuntajaa ennustepäillä.

AutoDeco-päät käyttävät mallin nykyistä piilotettua tilaa ennustaakseen optimaaliset näytteenottoparametrit seuraavalle tokenille dynaamisesti.
He julkaisevat AutoDeco-päät Deepseek-V3.1-Terminukselle, Qwen3-235B-A22B-Thinking-2507:lle ja GPT-OSS-120:lle ja validoivat useiden muiden mallien kanssa.


Piilevän päättelyn skaalaaminen silmukkakielimallien avulla
Tämän artikkelin tavoitteena on tutkia LoopLM:n skaalauskäyttäytymistä eri näkökulmista. He kehittävät uusia tavoitteita tehokkaan toistuvan laskennan kouluttamiseksi säilyttäen samalla huippusuorituskyvyn.

He kouluttavat kahta mallia, 1.4B- ja 2.6B-parametrien LoopLM:iä 7.7T-tokeneilla, jotka vastaavat 4B- ja 8B-standardimuuntajien suorituskykyä lähes kaikissa vertailuarvoissa ja saavuttavat 2-3× parametrien tehokkuuden parannuksia.
He tutkivat myös syitä, miksi silmukkamuuntajat ovat parempia.

Decathlon-työkalu: Kieliagenttien vertailu monipuoliseen, realistiseen ja pitkän aikavälin tehtävien suorittamiseen
Esittelee vertailuarvon kieliagenttien arvioimiseksi. TOOLATHLON perustuu realistisiin skenaarioihin, jotka vaativat useita sovelluksia.

TOOLATHLON vaatii tietojenkäsittelytieteen pääaineena tutkijalta keskimäärin 4–6 tuntia työskentelyä.
Sonnet 4.5, GPT-5 ja Grok4 toimivat hyvin. He havaitsevat merkittäviä eroja Pass@3- ja Passˆ3-onnistumisprosenttien välillä, mikä viittaa kyvyn kattavuuteen, mutta johdonmukaisuusongelmiin.

Seuraa meitä @ritualdigest saadaksesi lisätietoja kaikesta krypto x AI -tutkimuksesta ja
@ritualnet oppia lisää siitä, mitä Ritual rakentaa.
3,94K
Johtavat
Rankkaus
Suosikit

