Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Skalering av RL for tenkemodell i billionskala
Å skalere RL er vanskelig! Men dette laget kan ha funnet ut noe.
De introduserer Ring-1T, en 1T-parameter MoE-resonneringsmodell med ~50B parametere aktive per token.
Den trenes opp med en SFT-fase med lang CoT, en RL-fase med verifiserbare belønninger, deretter en generell RLHF-fase, og introduserer tre deler som gjør at RL på billionskala faktisk kjører:
- IcePop for å stabilisere oppdateringer
- C3PO++ for å holde GPUer opptatt under et tokenbudsjett
- ASystem for å forene RL-stabel med høy gjennomstrømning
På benchmarks leder den åpne vekter på AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces og ArenaHard v2.
Den når sølvmedaljenivå på IMO-2025 ved kun å bruke naturlig språkresonnement.

Topp
Rangering
Favoritter