Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O descoperire nebună în acest nou articol de la Google.
Modelele de raționament depășesc modelele reglate în funcție de instrucțiuni la sarcini complexe.
Explicația comună este că calculul extins în timp de testare are loc prin lanțuri mai lungi de gândire.
Dar această nouă cercetare dezvăluie ceva mai profund.
Aceasta sugerează că raționamentul îmbunătățit rezultă din simularea implicită a interacțiunilor asemănătoare mai multor agenți în cadrul modelului însuși.
Cercetătorii o numesc o "societate a gândirii".
Prin analiza cantitativă a urmelor raționamentului din DeepSeek-R1 și QwQ-32B, ei constată că aceste modele prezintă o diversitate mult mai mare a perspectivei decât modelele de bază.
Ele activează un conflict mai larg între trăsături eterogene legate de personalitate și expertiză în timpul raționamentului.
Cum arată asta?
Comportamentele conversaționale includ secvențe de întrebare-răspuns, schimbări de perspectivă, conflicte între puncte de vedere și reconcilierea neînțelegerilor.
Modelul se dezbate cu sine, adoptând roluri socio-emoționale distincte care caracterizează o conversație ascuțită, schimbată.
DeepSeek-R1 prezintă semnificativ mai multe răspunsuri la întrebări, schimbări de perspectivă și reconciliere comparativ cu DeepSeek-V3. Același tipar se aplică și pentru QwQ-32B versus Qwen-2.5-32B-IT. Modelele reglate la instrucțiuni produc monologuri unilaterale. Modelele de raționament produc dialog simulat.
Modelele de raționament de succes evită "camera de ecou" care duce la răspunsuri greșite. Prin simularea dezacordului din perspective diverse, ele previn conformarea lingușitoare față de afirmațiile inițiale înșelătoare.
Experimentele RL controlate arată că modelele de bază dezvoltă spontan comportamente conversaționale atunci când sunt recompensate exclusiv pentru acuratețea raționamentului.
Modelele reglate fin cu schelă conversațională învață mai repede decât cele reglate cu raționament asemănător monologului, în special în etapele timpurii de instruire.
...

Limită superioară
Clasament
Favorite
