長い動画理解は多くのマルチモーダルLLMを壊します。 1時間にわたる動画を処理する際のデフォルトの方法は、コンテンツをロスのある要約に圧縮するか、フレームを積極的にダウンサンプリングすることです。 これにより、時間的思考の負担は初期の不可逆的な段階に移されます。モデルが推論を始める前に、細かい証拠は失われてしまいます。 しかし、もしモデルが何を観察するか、いつ詳細を問い合わせるか、十分な証拠を集めたタイミングを積極的に決定できたらどうでしょうか? この新しい研究では、マスターLLMがすべてを受動的にエンコードするのではなく、専門的なエージェントを調整するマルチエージェントフレームワークであるLongVideoAgentを導入します。 エージェント推論は、モデルが関連するクリップに集中し、正しい情報が圧縮を経て生き残ることを期待するのではなく、ターゲットを絞った証拠を集めることを可能にします。 アーキテクチャは3つの要素から成り立っています。マスターエージェントは推論を担当し、各段階で取るべき行動を決定します。グラウンディングエージェントは、質問に関連するセグメントをエピソード全体のタイムライン内で位置づけます。ビジョンエージェントは、そのセグメント内の特定のフレームからターゲットを絞った観察値を引き出します。 マスターエージェントは最大Kステップで動作し、1ターンに1つの構造化されたアクション(グラウンディング要求、視覚的詳細のクエリ、または応答)を出力します。各アクションの出力は次の決定の文脈に反映されます。十分な証拠が集まると、マスターは最終的な答えを出します。 現実学習はマスターエージェントにいつ探索し、いつ止めるかを教えます。GRPOトレーニングは、2つの単純な報酬を用います:適切に形成された行動に対する構造的妥当性と、終了時の正解性です。この最小限の目的は、密集した監督なしに構造化された複数ターンの調整を導きます。 TVQAから集計されたエピソードレベルのベンチマークであるLongTVQAおよびLongTVQA+では、エージェント的アプローチが非エージェント的ベースラインを一貫して上回っています。マルチエージェントフレームワークによりGPT5-miniは62.4%から71.1%に跳ね上がりました。Qwen2.5-3BはRLトレーニング後に23.5%から47.4%に向上し、ほぼ倍増しました。DeepSeek-R1-671Bでさえ、このエージェント設計の恩恵を受けています。 グラウンディングだけでは非エージェントの基準値(69.0%対64.3%)を上回り、視覚を追加すると命中率は74.8%に上がります。 論文: 私たちのアカデミーで効果的なAIエージェントの構築方法を学びましょう: