Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Divoký malý nález v tomto novém článku od Googlu.
Modely uvažování překonávají modely laděné na instrukce u složitých úkolů.
Běžné vysvětlení je, že výpočet prodlouženého testovacího času probíhá prostřednictvím delších řetězců myšlenek.
Ale tento nový výzkum odhaluje něco hlubšího.
Naznačuje, že rozšířené uvažování vzniká z implicitní simulace multiagentových interakcí přímo v rámci samotného modelu.
Výzkumníci ji nazývají "společností myšlení".
Prostřednictvím kvantitativní analýzy stopových záznamů z DeepSeek-R1 a QwQ-32B zjistili, že tyto modely vykazují mnohem větší rozmanitost perspektiv než základní modely.
Aktivují širší konflikt mezi heterogenními osobnostními a odbornostními rysy během uvažování.
Jak to vypadá?
Konverzační chování zahrnuje sekvence odpovídání na otázky, změny perspektiv, konflikty mezi názory a usmíření neshod.
Model sám se sebou debatuje a přijímá odlišné socio-emocionální role, které charakterizují ostrou konverzaci tam a zpět.
DeepSeek-R1 vykazuje výrazně více odpovídání na otázky, posuny perspektiv a usmíření ve srovnání s DeepSeek-V3. Stejný vzorec platí pro QwQ-32B oproti Qwen-2.5-32B-IT. Modely ladění výuky vytvářejí jednostranné monology. Modely uvažování vytvářejí simulovaný dialog.
Úspěšné modely uvažování se vyhýbají "ozvěnové komoře", která vede k nesprávným odpovědím. Simulací neshod napříč různými perspektivami zabraňují podlézavé shodě s zavádějícími počátečními tvrzeními.
Kontrolované RL experimenty ukazují, že základní modely spontánně rozvíjejí konverzační chování, pokud jsou odměňovány pouze za přesnost uvažování.
Modely vyladěné pomocí konverzačního lešení se učí rychleji než ty vyladěné s monologovým uvažováním, zejména v raných fázích školení.
...

Top
Hodnocení
Oblíbené
