Skalering av RL for tenkemodell i billionskala Å skalere RL er vanskelig! Men dette laget kan ha funnet ut noe. De introduserer Ring-1T, en 1T-parameter MoE-resonneringsmodell med ~50B parametere aktive per token. Den trenes opp med en SFT-fase med lang CoT, en RL-fase med verifiserbare belønninger, deretter en generell RLHF-fase, og introduserer tre deler som gjør at RL på billionskala faktisk kjører: - IcePop for å stabilisere oppdateringer - C3PO++ for å holde GPUer opptatt under et tokenbudsjett - ASystem for å forene RL-stabel med høy gjennomstrømning På benchmarks leder den åpne vekter på AIME-25, HMMT-25, ARC-AGI-1, LiveCodeBench, CodeForces og ArenaHard v2. Den når sølvmedaljenivå på IMO-2025 ved kun å bruke naturlig språkresonnement.