Wild kleine ontdekking in dit nieuwe paper van Google. Redeneringsmodellen presteren beter dan instructie-afgestemde modellen op complexe taken. De gebruikelijke verklaring is dat uitgebreide testtijdcomputatie plaatsvindt via langere denkprocessen. Maar dit nieuwe onderzoek onthult iets diepers. Het suggereert dat verbeterd redeneren voortkomt uit de impliciete simulatie van multi-agentachtige interacties binnen het model zelf. De onderzoekers noemen het een "maatschappij van gedachten." Door kwantitatieve analyse van redeneringstracés van DeepSeek-R1 en QwQ-32B, ontdekken ze dat deze modellen veel grotere perspectiefdiversiteit vertonen dan baseline-modellen. Ze activeren bredere conflicten tussen heterogene persoonlijkheids- en expertisegerelateerde kenmerken tijdens het redeneren. Hoe ziet dit eruit? Conversatiegedragingen omvatten vraag-en-antwoordsequenties, perspectiefverschuivingen, conflicten tussen standpunten en verzoening van meningsverschillen. Het model debatteert met zichzelf, waarbij het verschillende sociaal-emotionele rollen aanneemt die een scherp heen-en-weer gesprek kenmerken. DeepSeek-R1 toont significant meer vraag-en-antwoord, perspectiefverschuivingen en verzoening in vergelijking met DeepSeek-V3. Hetzelfde patroon geldt voor QwQ-32B versus Qwen-2.5-32B-IT. Instructie-afgestemde modellen produceren eenzijdige monologen. Redeneringsmodellen produceren gesimuleerde dialogen. Succesvolle redeneringsmodellen vermijden de "echo kamer" die leidt tot verkeerde antwoorden. Door onenigheid over diverse perspectieven te simuleren, voorkomen ze sycophantische conformiteit aan misleidende initiële claims. Gecontroleerde RL-experimenten tonen aan dat basismodellen spontaan conversatiegedragingen ontwikkelen wanneer ze alleen worden beloond voor redeneringsnauwkeurigheid. Modellen die fijn zijn afgestemd met conversatie-ondersteuning leren sneller dan die fijn zijn afgestemd met monoloogachtige redenering, vooral tijdens de vroege trainingsfasen. ...