Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Her er denne ukens Ritual Research Digest, et nyhetsbrev som dekker det siste i verden av LLM-er og skjæringspunktet mellom Crypto x AI.
Med hundrevis av artikler utgitt ukentlig, er det umulig å holde seg oppdatert med det siste. Vi leser slik at du ikke trenger å gjøre det.

Kritikk-RL: Opplæring av språkmodeller for kritikk gjennom to-trinns forsterkende læring
Denne artikkelen tar sikte på å utvikle kritikkspråkmodeller som ikke er avhengige av sterkere tilsyn eller en orakelbelønningsfunksjon under testing.

De foreslår Critique-RL, en 2-trinns RL-tilnærming, en online RL-tilnærming basert på interaksjon mellom aktør og kritiker for å utvikle kritikkmodeller.
Omfattende eksperimenter viser at metoden overgår baselines, og gir bedre ytelse med Qwen 2.5 7B.

PACR: Progressivt stigende selvtillitsbelønning for LLM-resonnement
Dette arbeidet spør om trinnvis tilsyn kan fås fra modellen. De introduserer PACR, et tett, modelliboende signal som konverterer konfidensvekst til trinnvis overvåking for RL.



De finner blant annet at en konsistent konfidensoppstigning korrelerer sterkt med riktigheten av det endelige svaret.
På tvers av flere resonneringsbenchmarks forbedrer utvidelse av RLVR med PACR-metoder treningsdynamikken og den endelige ytelsen.

Slutten på manuell dekoding: Mot virkelig ende-til-ende-språkmodeller
Denne artikkelen foreslår AutoDeco, en arkitektur som skaper en "ende-til-ende" LM som er i stand til å kontrollere sin egen dekodingsprosess. De forsterker transformatoren med prediksjonshoder.

AutoDeco-hoder bruker modellens nåværende skjulte tilstand for å forutsi de optimale prøvetakingsparametrene for neste token dynamisk.
De slipper AutoDeco-hoder for Deepseek-V3.1-Terminus, Qwen3-235B-A22B-Thinking-2507 og GPT-OSS-120 og validerer med flere andre modeller.


Skalering av latent resonnement via loopede språkmodeller
Denne artikkelen tar sikte på å utforske skaleringsatferden til LoopLM i ulike aspekter. De utvikler nye mål for å trene effektiv tilbakevendende beregning samtidig som de opprettholder topp ytelse.

De trener to modeller, 1,4B og 2,6B parameter LoopLM-er på 7,7T-tokens som matcher ytelsen til 4B og 8B standardtransformatorer på tvers av nesten alle benchmarks, og oppnår 2-3× parametereffektivitetsforbedringer.
De utforsker også årsaker til at sløyfetransformatorer er bedre.

Verktøyet Decathlon: Benchmarking av språkagenter for mangfoldig, realistisk og langsiktig oppgaveutførelse
Introduserer en referanse for evaluering av språkagenter. TOOLATHLON er forankret i realistiske scenarier som krever flere apper.

TOOLATHLON krever i gjennomsnitt 4–6 timers arbeid av en forskerstudent med hovedfag i data.
Sonnet 4.5, GPT-5 og Grok4 presterer bra. De observerer betydelige forskjeller mellom Pass@3 og Passˆ3 suksessrater, noe som indikerer kapasitetsdekning, men konsistensproblemer.

Følg oss @ritualdigest for mer om alt som har med krypto x AI-forskning å gjøre, og
@ritualnet lære mer om hva Ritual bygger.
3,91K
Topp
Rangering
Favoritter

