Uma pequena descoberta inesperada neste novo artigo do Google. Modelos de raciocínio superam os modelos ajustados por instruções em tarefas complexas. A explicação comum é que a computação em tempo de teste estendido ocorre por meio de cadeias de pensamento mais longas. Mas essa nova pesquisa revela algo mais profundo. Sugere que o raciocínio aprimorado emerge da simulação implícita de interações semelhantes a múltiplos agentes dentro do próprio modelo. Os pesquisadores a chamam de "sociedade de pensamento." Por meio da análise quantitativa de traços de raciocínio do DeepSeek-R1 e QwQ-32B, eles descobrem que esses modelos apresentam uma diversidade de perspectiva muito maior do que os modelos de linha base. Elas ativam conflitos mais amplos entre características heterogêneas relacionadas à personalidade e à expertise durante o raciocínio. Como isso se parece? Comportamentos conversacionais incluem sequências de perguntas e respostas, mudanças de perspectiva, conflitos entre pontos de vista e reconciliação de discordâncias. O modelo debate consigo mesmo, adotando papéis socioemocionais distintos que caracterizam uma conversa aguda e trocada. O DeepSeek-R1 apresenta significativamente mais respostas de perguntas, mudanças de perspectiva e reconciliação em comparação com o DeepSeek-V3. O mesmo padrão vale para QwQ-32B versus Qwen-2.5-32B-IT. Modelos ajustados à instrução produzem monólogos unilaterais. Modelos de raciocínio produzem diálogos simulados. Modelos de raciocínio bem-sucedidos evitam a "câmara de eco" que leva a respostas erradas. Ao simular discordância entre diversas perspectivas, elas impedem a conformidade bajuladora com afirmações iniciais enganosas. Experimentos de RL controlado mostram que modelos base desenvolvem espontaneamente comportamentos conversacionais quando recompensados apenas pela precisão do raciocínio. Modelos ajustados com andaimes conversacionais aprendem mais rápido do que aqueles com raciocínio semelhante a monólogos, especialmente durante as fases iniciais de treinamento. ...