Googleの新しい論文で驚くべき発見があります。 推論モデルは複雑なタスクにおいて命令チューニングモデルよりも優れた性能を発揮します。 一般的な説明は、テスト時間の計算がより長い思考の連鎖を通じて行われるというものです。 しかし、この新しい研究はもっと深いことを明らかにしています。 この研究は、モデル自体におけるマルチエージェント様の相互作用の暗黙のシミュレーションから、推論能力の向上が生まれることを示唆しています。 研究者たちはこれを「思考の社会」と呼んでいます。 DeepSeek-R1およびQwQ-32Bからの推論痕跡の定量分析により、これらのモデルはベースラインモデルよりもはるかに高い視点多様性を示すことがわかりました。 これらは推論の過程で、異質な性格や専門性に関連する特徴間のより広範な対立を引き起こします。 これはどんな感じですか? 会話行動には、質問応答の連続、視点の切り替え、視点の対立、意見の相違の和解が含まれます。 モデルは自らと議論し、鋭いやり取りを特徴づける明確な社会・感情的役割を採用します。 DeepSeek-R1はDeepSeek-V3と比べて、より多くの質問応答、視点の切り替え、調和が著しく示されています。同じパターンはQwQ-32BとQwen-2.5-32B-ITにも当てはまります。命令調整モデルは一方的な独白を生み出します。推論モデルはシミュレーションされた対話を生成します。 成功する推論モデルは、誤った答えにつながる「エコーチェンバー」を避けます。多様な視点間の意見の相違をシミュレートすることで、誤解を招く初期の主張へのおべっかな同調を防いでいます。 制御された強化学習実験では、ベースモデルは推論の正確さだけで報酬を与えられると、自然発生的に会話行動を発達させることが示されています。 会話型足場で微調整されたモデルは、特に初期の訓練段階で独白的な推論で微調整されたモデルよりも速く学習します。 ...