Une découverte surprenante dans ce nouveau document de Google. Les modèles de raisonnement surpassent les modèles ajustés aux instructions sur des tâches complexes. L'explication courante est que le calcul prolongé au moment du test se produit à travers de plus longues chaînes de pensée. Mais cette nouvelle recherche révèle quelque chose de plus profond. Elle suggère qu'un raisonnement amélioré émerge de la simulation implicite d'interactions semblables à celles de plusieurs agents au sein même du modèle. Les chercheurs l'appellent une "société de pensée." À travers une analyse quantitative des traces de raisonnement de DeepSeek-R1 et QwQ-32B, ils constatent que ces modèles présentent une diversité de perspectives bien plus grande que les modèles de référence. Ils activent un conflit plus large entre des caractéristiques hétérogènes liées à la personnalité et à l'expertise pendant le raisonnement. À quoi cela ressemble-t-il ? Les comportements conversationnels incluent des séquences de questions-réponses, des changements de perspective, des conflits entre points de vue et la réconciliation des désaccords. Le modèle débat avec lui-même, adoptant des rôles socio-émotionnels distincts qui caractérisent une conversation vive et dynamique. DeepSeek-R1 montre significativement plus de questions-réponses, de changements de perspective et de réconciliation par rapport à DeepSeek-V3. Le même schéma s'applique à QwQ-32B par rapport à Qwen-2.5-32B-IT. Les modèles ajustés aux instructions produisent des monologues unilatéraux. Les modèles de raisonnement produisent un dialogue simulé. Les modèles de raisonnement réussis évitent la "chambre d'écho" qui mène à des réponses erronées. En simulant le désaccord à travers des perspectives diverses, ils empêchent la conformité sycophante aux affirmations initiales trompeuses. Des expériences de RL contrôlées montrent que les modèles de base développent spontanément des comportements conversationnels lorsqu'ils sont récompensés uniquement pour leur précision de raisonnement. Les modèles ajustés avec un échafaudage conversationnel apprennent plus rapidement que ceux ajustés avec un raisonnement de type monologue, en particulier pendant les premières étapes de formation. ...