Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Her er denne ukens Ritual Research Digest, et nyhetsbrev som dekker det siste i verden av LLM-er og skjæringspunktet mellom Crypto x AI.
Med hundrevis av artikler utgitt ukentlig, er det umulig å holde seg oppdatert med det siste. Vi leser slik at du ikke trenger å gjøre det.

Ikke alle biter er like: Skalaavhengige minneoptimaliseringsstrategier for resonneringsmodeller
Forfatterne undersøker prinsippene for minnekomprimering for resonneringsmodeller. De vurderer modellstørrelse, presisjon, genlengde og KV-cache-komprimering.

De spør: Under et fast minnebudsjett, hva er balansen mellom faktorene for å maksimere nøyaktigheten på resonneringsoppgaver?
Over 1700 eksperimenter på Qwen3-familien på AIME og GPQA-Diamond. De finner at det ikke finnes noen universell strategi, men de har størrelsesspesifikke anbefalinger.

Kunsten å skalere Reinforcement Learning Compute for LLM-er
Dette arbeidet utforsker vitenskapen om RL-skalering og utvikler ScaleRL, en oppskrift som skalerer forutsigbart med databehandling. Designet er forankret i en empirisk studie av RL-skalering over 400 000 GPU-timer.

De finner tre nøkkelprinsipper:
• RL Performance Ceilings er ikke universelle
• Bitter leksjon gjelder også for RL
• Vanlige intervensjoner som antas å forbedre toppytelsen justerer hovedsakelig databehandlingseffektiviteten, samtidig som ytelsestaket ikke endres betraktelig.

LLM-er kan få "hjerneråte"!
Denne artikkelen studerer om LLM-er kan få hjerneråte, det vil si hvis de trenes på søppelnetttekst, har den varig kognitiv nedgang i LLM-er?
De eksperimenterer ved å konstruere datasett fra sosiale medier (Twitter/X) via de to søppelberegningene.

Sammenlignende benchmarking mellom rene og søppeldatasett viser at søppelintervensjonen er assosiert med kognitiv nedgang i resonnement, lang kontekst og etiske normer.
Mørke personligheter av LLM-er dukker opp med M1-søppelintervensjon, noe som skaper betydelige sikkerhetsproblemer.


Ikke kast den forhåndstrente modellen
Justering/RL har blitt integrert i LLM-opplæring, men har flere ulemper, som forhåndstrente basismodeller utmerker seg med. Denne artikkelen undersøker hvordan man kan utnytte fordelene med begge verdener og utvikle tilpasningsdyktige AI-systemer.

De foreslår Switch Generation, der flere modellsjekkpunkter velges dynamisk for generering.
Eksperimenter med 8 samarbeidsgrunnlinjer og 18 datasett viser at modellsamarbeidstilnærminger overgår alle individuelle modeller på 16 av 18 datasett.


Hvordan forsterkende læring etter prediksjon av neste token letter læring
Artikkelen studerer hvordan autoregressive modeller lykkes med utfordrende prediksjonsoppgaver ved å følge denne treningsoppskriften (neste-token-prediksjon etterfulgt av forsterkende læring).

For eksperimenter antar de at pre-training-data inneholder sjeldne demonstrasjoner for en oppgave av interesse.
Basert på dette forklarer de:
- Generaliseringsvansker under fortrening
- Hvordan RL fører til en rask forbedring
- Hva fører til lengre svar?

Følg oss @ritualdigest for mer om alt som har med krypto x AI-forskning å gjøre, og
@ritualnet lære mer om hva Ritual bygger.
572
Topp
Rangering
Favoritter