🚨 みんなが、なぜAIエージェントはデモを過ぎた瞬間に崩壊するのかと尋ねています。 Google DeepMind、Meta、Amazon、イェール大学のこの論文は、静かに不快な答えを示しています。 今日のLLMは理屈をつけません。彼らは反応します。 彼らはトークンごとに流暢なテキストトークンを生成しますが、計画も反省も、いつ立ち止まって再考すべきかを決めることもありません。彼らは判断力ではなく、言語が強みだから賢く聞こえます。 本論文は、本当の進歩はLLMをエージェント的推論者に変えることから生まれると主張しています。目標を設定し、それをサブゴールに分割し、行動を選択し、結果を評価し、途中で戦略を変更できるシステムです。 彼らは推論をプロンプトではなくループとして形式化します: 計画→行動→行動を観察し→→反映更新→繰り返します これが重要な転換点です。一つの長い思考の連鎖ではなく、モデルは内部のタスク状態を維持します。次に何を考えるかを決めるのではなく、文の締めくくり方を決めるのです。 だからこそ、CoTが長くなるのです。より良い判断ではなく、より多くの言葉が出ます。 最も鋭い洞察の一つ:制御と推論が混ざると推論は崩壊します。単一のプロンプトが計画、実行、批評、最終決定を試みると、エラーは静かに積み重なっていきます。 エージェントシステムは役割を分けています。 計画は明確です。 実行範囲が設定されています。 振り返りは遅れて構造化されています。 論文はモデルを示すだけで劇的な成果を示しています: ・明示的な中間目標 ・自己評価のためのチェックポイント ・悪い道を放棄する許可...