Дикие маленькие находки в этой новой статье от Google. Модели рассуждений превосходят модели, настроенные на инструкции, в сложных задачах. Общее объяснение заключается в том, что расширенные вычисления во время тестирования происходят через более длинные цепочки размышлений. Но это новое исследование раскрывает нечто более глубокое. Оно предполагает, что улучшенное рассуждение возникает из неявной симуляции взаимодействий, похожих на многоагентные, внутри самой модели. Исследователи называют это "обществом мысли." Через количественный анализ следов рассуждений от DeepSeek-R1 и QwQ-32B они обнаруживают, что эти модели демонстрируют гораздо большее разнообразие перспектив, чем базовые модели. Они активируют более широкий конфликт между гетерогенными личностными и экспертными характеристиками во время рассуждений. Как это выглядит? Разговорные поведения включают последовательности вопросов и ответов, изменения перспектив, конфликты между точками зрения и примирение разногласий. Модель ведет дебаты сама с собой, принимая различные социо-эмоциональные роли, которые характеризуют резкую перепалку. DeepSeek-R1 показывает значительно больше вопросов и ответов, изменений перспектив и примирений по сравнению с DeepSeek-V3. Та же закономерность наблюдается для QwQ-32B по сравнению с Qwen-2.5-32B-IT. Модели, настроенные на инструкции, производят односторонние монологи. Модели рассуждений создают смоделированный диалог. Успешные модели рассуждений избегают "эхо-камеры", которая приводит к неправильным ответам. Симулируя разногласия между различными перспективами, они предотвращают подхалимское согласие с вводящими в заблуждение первоначальными утверждениями. Контролируемые эксперименты с RL показывают, что базовые модели спонтанно развивают разговорные поведения, когда вознаграждаются исключительно за точность рассуждений. Модели, дообученные с разговорной поддержкой, учатся быстрее, чем те, которые дообучены с монологическим рассуждением, особенно на ранних этапах обучения. ...