トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
新しいビデオ理解用紙:明日テストします!
長時間の動画理解はマルチモーダルLLMにとって頑固なボトルネックであり、多くのアプローチは重圧縮やダウンサンプリングに依存し、推論が始まる前に細かい時間的・視覚的な手がかりを不可逆的に失ってしまいます。
新しい論文「LongVideoAgent: Long Videosによるマルチエージェント推論」は、マルチエージェントフレームワークを用いてこの問題に正面から取り組んでいます。
・マスターLLMは、証拠収集や回答の最終決定を決定する有界ステップ(≤K)で計画を調整します。
・グラウンディングエージェントは、字幕を用いて質問に関連するセグメントを位置特定し、効率的な時間的検索を実現します。
・ビジョンエージェントは、そのセグメントのキーフレームからターゲットを絞ったテキスト観察を抽出し、字幕に正確な視覚的詳細を加えます。
この反復的でエージェント的なプロセスにより、損失のある初期エンコーディングを避け、稀ながらも高忠実度の証拠収集が可能となります。
マスターエージェントは強化学習(GRPO)によってさらに洗練され、構造的妥当性や最終的正確性に対する報酬が与えられ、効率的な多ターン調整を教えます。
新しいエピソードレベルのベンチマーク(LongTVQAおよびLongTVQA+、TVQAから集約)の結果:
•エージェント設計は、エージェント以外の基準を一貫して上回ります。
・グラウンディング+ビジョンを加えると、~10%の絶対的な利益が得られます。
•強化学習はオープンソースモデルを劇的に向上させます(例:Qwen2.5-7Bは性能をほぼ倍増させます)。
拡張可能で解釈可能な長期文脈ビデオ推論への賢い一歩です。
論文:
プロジェクト:
#AI #Multimodal #Agents #LongVideoQA

トップ
ランキング
お気に入り
