エージェントビルダー向けのバンガーペーパー。 マルチエージェントシステムはしばしば期待に応えられません。問題はエージェント自体の作り方ではありません。それが彼らの組織の仕方です。 これらは主に固定されたチェーンや木、グラフで構成されており、タスクの進化に合わせて適応できません。 しかし、もしシステムが自分自身の協調パターンを学習できたらどうでしょうか? この新しい研究では、手作りのトポロジーに頼らず、エージェントを動的にオーケストレーションすることを学ぶフレームワークであるPuppeteerを導入します。 協働構造をあらかじめ定義するのではなく、オーケストレーターは変化する会話状態に基づいて次に話すエージェントを選択します。このポリシーはREINFORCEで訓練され、タスク成功に直接最適化されます。 複雑なグラフトポロジーを探すのではなく、すべてを逐次的なエージェント選択にシリアライズします。この再構成は組合せ的複雑さを回避します。 驚くべきことに、コンパクトな循環パターンが自然に形成されます。広がるグラフではなく、2〜3人のエージェントがほとんどの作業を担当するタイトなループです。 驚くべきことに、システムは自ら効率を見出します。 業績: - GSM-Hard数学問題では70%の精度(ベースモデル単独の13.5%から向上)。 - MMLU-Proでは83%(ベースラインの76%に対して)。 - SRDDソフトウェア開発について:76.4%(ベースラインの60.6%に対して)。 これらの利益はトークン消費の減少に伴います。論文は、トレーニングを通じてトークンコストが一貫して減少し、パフォーマンスが向上していることを示しています。 また、エージェント選択過程がマルコフ性質を満たすことを証明し、現在の状態だけで最適な次のエージェントを決定することを示しました。全履歴を追跡する必要はありません。 AI開発者にとって重要な理由:学んだシンプルさは、設計された複雑さに勝る。数名の専門エージェントを備えた訓練済みルーターは、複雑な手作業ワークフローを上回り、計算負荷を削減できます。