Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Uma descoberta surpreendente neste novo artigo do Google.
Modelos de raciocínio superam modelos ajustados por instruções em tarefas complexas.
A explicação comum é que a computação prolongada durante o teste ocorre através de cadeias de pensamento mais longas.
Mas esta nova pesquisa revela algo mais profundo.
Sugere que o raciocínio aprimorado emerge da simulação implícita de interações semelhantes a multi-agentes dentro do próprio modelo.
Os pesquisadores chamam isso de "sociedade de pensamento."
Através de uma análise quantitativa das trilhas de raciocínio do DeepSeek-R1 e do QwQ-32B, eles descobrem que esses modelos exibem uma diversidade de perspectivas muito maior do que os modelos de referência.
Eles ativam um conflito mais amplo entre características heterogêneas relacionadas à personalidade e à expertise durante o raciocínio.
Como isso se parece?
Comportamentos conversacionais incluem sequências de perguntas e respostas, mudanças de perspectiva, conflitos entre pontos de vista e reconciliação de desacordos.
O modelo debate consigo mesmo, adotando papéis socioemocionais distintos que caracterizam uma conversa intensa e dinâmica.
O DeepSeek-R1 mostra significativamente mais perguntas e respostas, mudanças de perspectiva e reconciliação em comparação com o DeepSeek-V3. O mesmo padrão se mantém para o QwQ-32B em comparação com o Qwen-2.5-32B-IT. Modelos ajustados por instruções produzem monólogos unilaterais. Modelos de raciocínio produzem diálogos simulados.
Modelos de raciocínio bem-sucedidos evitam a "câmara de eco" que leva a respostas erradas. Ao simular desacordos entre perspectivas diversas, eles previnem a conformidade servil a alegações iniciais enganosas.
Experimentos controlados de RL mostram que modelos base desenvolvem espontaneamente comportamentos conversacionais quando recompensados apenas pela precisão do raciocínio.
Modelos ajustados com estruturas conversacionais aprendem mais rápido do que aqueles ajustados com raciocínio semelhante a monólogos, particularmente durante as fases iniciais de treinamento.
...

Top
Classificação
Favoritos
