Una scoperta sorprendente in questo nuovo documento di Google. I modelli di ragionamento superano i modelli ottimizzati per le istruzioni in compiti complessi. La spiegazione comune è che un calcolo prolungato durante il test avviene attraverso catene di pensiero più lunghe. Ma questa nuova ricerca rivela qualcosa di più profondo. Suggerisce che un ragionamento migliorato emerge dalla simulazione implicita di interazioni simili a quelle di più agenti all'interno del modello stesso. I ricercatori lo chiamano una "società del pensiero." Attraverso un'analisi quantitativa delle tracce di ragionamento di DeepSeek-R1 e QwQ-32B, scoprono che questi modelli mostrano una diversità di prospettive molto maggiore rispetto ai modelli di base. Attivano un conflitto più ampio tra caratteristiche eterogenee legate alla personalità e all'expertise durante il ragionamento. Come appare questo? I comportamenti conversazionali includono sequenze di domande e risposte, cambi di prospettiva, conflitti tra punti di vista e riconciliazione di disaccordi. Il modello discute con se stesso, adottando ruoli socio-emotivi distinti che caratterizzano una conversazione vivace e serrata. DeepSeek-R1 mostra significativamente più domande e risposte, cambi di prospettiva e riconciliazione rispetto a DeepSeek-V3. Lo stesso schema si applica a QwQ-32B rispetto a Qwen-2.5-32B-IT. I modelli ottimizzati per le istruzioni producono monologhi unilaterali. I modelli di ragionamento producono dialoghi simulati. I modelli di ragionamento di successo evitano la "camera dell'eco" che porta a risposte sbagliate. Simulando disaccordi attraverso prospettive diverse, prevengono la conformità servile a affermazioni iniziali fuorvianti. Esperimenti di RL controllati mostrano che i modelli di base sviluppano spontaneamente comportamenti conversazionali quando vengono premiati esclusivamente per l'accuratezza del ragionamento. I modelli affinati con impalcature conversazionali apprendono più velocemente rispetto a quelli affinati con ragionamento simile a un monologo, in particolare durante le prime fasi di addestramento. ...