Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vilt lite funn i denne nye artikkelen fra Google.
Resonnementsmodeller overgår instruksjonsjusterte modeller på komplekse oppgaver.
Den vanlige forklaringen er at utvidet testtidsberegning skjer gjennom lengre tankerekker.
Men denne nye forskningen avslører noe dypere.
Det antyder at forbedret resonnement oppstår fra implisitte simuleringer av multiagent-lignende interaksjoner innenfor selve modellen.
Forskerne kaller det et «tankesamfunn».
Gjennom kvantitativ analyse av resonnementsspor fra DeepSeek-R1 og QwQ-32B, finner de at disse modellene viser langt større perspektivdiversitet enn baseline-modellene.
De aktiverer bredere konflikt mellom heterogene personlighets- og ekspertiserelaterte trekk under resonnement.
Hvordan ser dette ut?
Samtaleatferd inkluderer spørsmåls-svar-sekvenser, perspektivskifter, konflikter mellom synspunkter og forsoning av uenigheter.
Modellen debatterer med seg selv, og inntar distinkte sosio-emosjonelle roller som kjennetegner en skarp samtale frem og tilbake.
DeepSeek-R1 viser betydelig mer spørsmålssvar, perspektivskift og forsoning sammenlignet med DeepSeek-V3. Det samme mønsteret gjelder for QwQ-32B versus Qwen-2.5-32B-IT. Instruksjonsjusterte modeller produserer ensidige monologer. Resonnementsmodeller produserer simulert dialog.
Vellykkede resonnementsmodeller unngår «ekkokammeret» som fører til feil svar. Ved å simulere uenighet på tvers av ulike perspektiver, forhindrer de smiskende konformitet til misvisende innledende påstander.
Kontrollerte RL-eksperimenter viser at basemodeller spontant utvikler samtaleatferd når de belønnes kun for resonnementets nøyaktighet.
Modeller finjustert med samtalestøtte lærer raskere enn de som finjusterer monologlignende resonnement, spesielt i tidlige treningsfaser.
...

Topp
Rangering
Favoritter
