Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vilt litet fynd i denna nya artikel från Google.
Resonemangsmodeller presterar bättre än instruktionsanpassade modeller på komplexa uppgifter.
Den vanliga förklaringen är att beräkningar under förlängd testtid sker genom längre tankekedjor.
Men denna nya forskning avslöjar något djupare.
Den antyder att förbättrat resonemang uppstår ur den implicita simuleringen av interaktioner med flera agenter inom själva modellen.
Forskarna kallar det ett "tankesamhälle."
Genom kvantitativ analys av resonemangsspår från DeepSeek-R1 och QwQ-32B finner de att dessa modeller uppvisar mycket större perspektivdiversitet än baslinjemodeller.
De aktiverar en bredare konflikt mellan heterogena personlighets- och expertisrelaterade drag under resonemang.
Hur ser det här ut?
Samtalsbeteenden inkluderar fråge-svarssekvenser, perspektivskiften, konflikter mellan synsätt och försoning av meningsskiljaktigheter.
Modellen debatterar med sig själv och antar tydliga socio-emotionella roller som kännetecknar ett skarpt samtal fram och tillbaka.
DeepSeek-R1 visar betydligt fler fråge-svar, perspektivskiften och försoning jämfört med DeepSeek-V3. Samma mönster gäller för QwQ-32B jämfört med Qwen-2.5-32B-IT. Instruktionsanpassade modeller producerar ensidiga monologer. Resonemangsmodeller producerar simulerad dialog.
Framgångsrika resonemangsmodeller undviker "ekokammaren" som leder till felaktiga svar. Genom att simulera oenighet över olika perspektiv förhindrar de smickrande konformitet till vilseledande initiala påståenden.
Kontrollerade RL-experiment visar att basmodeller spontant utvecklar samtalsbeteenden när de belönas enbart för resonemangsnoggrannhet.
Modeller som finjusteras med samtalsstöd lär sig snabbare än de som finjusteras med monologliknande resonemang, särskilt under tidiga träningsstadier.
...

Topp
Rankning
Favoriter
