Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Robert Youssef
Herregud... denne artikkelen fra MIT forklarer stille hvordan modeller kan lære seg å resonnere når de sitter helt fast 🤯
Kjerneideen er tilsynelatende enkel:
Resonnement feiler fordi læring ikke har noe å feste seg til.
Når en modells suksessrate faller til nær null, slutter forsterkningslæring å fungere. Ingen belønningssignal. Ingen gradient. Ingen forbedring. Modellen er ikke «dårlig til å resonnere» — den er fanget utenfor grensen for lærbarhet.
Denne artikkelen omformulerer problemet.
I stedet for å spørre «Hvordan får vi modellen til å løse vanskeligere problemer?»
De spør: «Hvordan skaper en modell problemer den kan lære av?»
Det er her SOAR kommer inn.
SOAR deler en enkelt forhåndstrent modell inn i to roller:
• En elev som prøver seg på svært vanskelige oppgaver
• En lærer som genererer nye treningsoppgaver for eleven
Men begrensningen er brutal.
Læreren blir aldri belønnet for smarte spørsmål, mangfold eller realisme.
Det belønnes kun hvis elevens prestasjon forbedres på et fast sett med reelle evalueringsproblemer.
Ingen forbedring? Ingen belønning.
Dette endrer dynamikken fullstendig.
Læreren optimaliserer ikke for estetikk eller nyhet.
Den optimaliserer for læringsfremgang.
Over tid oppdager læreren noe mennesker vanligvis hardkoder manuelt:
Mellomliggende problemer.
Ikke løste versjoner av måloppgaven.
Ikke utvannede kopier.
Men problemer som ligger rett innenfor elevens nåværende kapasitetsgrense — nærme nok til å lære av, langt nok til å ha betydning.
Her kommer den overraskende delen.
De genererte oppgavene trenger ikke riktige svar.
De trenger ikke engang å kunne løses av læreren.
Det som betyr noe er struktur.
Hvis spørsmålet tvinger studenten til å resonnere i riktig retning, oppstår gradientsignal selv uten perfekt veiledning. Læring skjer gjennom kamp, ikke imitasjon.
Derfor fungerer SOAR der direkte RL feiler.
I stedet for å krasje inn i en belønningsklippe, klatrer eleven opp en trapp den var med på å bygge.
Eksperimentene gjør dette smertefullt klart.
På benchmarks hvor modellene starter på absolutt null — bokstavelig talt 0 suksesser — flater standardmetodene ut. Med SOAR begynner ytelsen å øke jevnt etter hvert som læreplanen omformer seg rundt modellens interne kunnskap.
Dette er et stille, men radikalt skifte.
Vi tror vanligvis at resonnement er begrenset av modellstørrelse, dataskala eller treningsdatabehandling.
Denne artikkelen antyder en helt annen flaskehals:
Dårlige læringsmiljøer.
Hvis modeller kan lage sine egne trinnsteiner, slutter mange «resonnementsgrenser» å være begrensninger i det hele tatt.
Ingen ny arkitektur.
Ingen ekstra menneskelige merkelapper.
Ingen større modeller.
Bare bedre insentiver for hvordan læringen utvikler seg.
Den ubehagelige implikasjonen er denne:
Resonnementsplatåer er ikke grunnleggende.
De er selvpåførte.
Og veien videre er ikke å tvinge modellene til å tenke hardere, men å la dem bestemme hva de vil lære videre.

18
Topp
Rangering
Favoritter

