新しいビデオ理解用紙:明日テストします! 長時間の動画理解はマルチモーダルLLMにとって頑固なボトルネックであり、多くのアプローチは重圧縮やダウンサンプリングに依存し、推論が始まる前に細かい時間的・視覚的な手がかりを不可逆的に失ってしまいます。 新しい論文「LongVideoAgent: Long Videosによるマルチエージェント推論」は、マルチエージェントフレームワークを用いてこの問題に正面から取り組んでいます。 ・マスターLLMは、証拠収集や回答の最終決定を決定する有界ステップ(≤K)で計画を調整します。 ・グラウンディングエージェントは、字幕を用いて質問に関連するセグメントを位置特定し、効率的な時間的検索を実現します。 ・ビジョンエージェントは、そのセグメントのキーフレームからターゲットを絞ったテキスト観察を抽出し、字幕に正確な視覚的詳細を加えます。 この反復的でエージェント的なプロセスにより、損失のある初期エンコーディングを避け、稀ながらも高忠実度の証拠収集が可能となります。 マスターエージェントは強化学習(GRPO)によってさらに洗練され、構造的妥当性や最終的正確性に対する報酬が与えられ、効率的な多ターン調整を教えます。 新しいエピソードレベルのベンチマーク(LongTVQAおよびLongTVQA+、TVQAから集約)の結果: •エージェント設計は、エージェント以外の基準を一貫して上回ります。 ・グラウンディング+ビジョンを加えると、~10%の絶対的な利益が得られます。 •強化学習はオープンソースモデルを劇的に向上させます(例:Qwen2.5-7Bは性能をほぼ倍増させます)。 拡張可能で解釈可能な長期文脈ビデオ推論への賢い一歩です。 論文: プロジェクト: #AI #Multimodal #Agents #LongVideoQA