分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

新しいビデオ理解用紙:明日テストします! 長時間の動画理解はマルチモーダルLLMにとって頑固なボトルネックであり、多くのアプローチは重圧縮やダウンサンプリングに依存し、推論が始まる前に細かい時間的・視覚的な手がかりを不可逆的に失ってしまいます。新しい論文「LongVideoAgent: Long Videosによるマルチエージェント推論」は、マルチエージェントフレームワークを用いてこの問題に正面から取り組んでいます。・マスターLLMは、証拠収集や回答の最終決定を決定する有界ステップ(≤K)で計画を調整します。・グラウンディングエージェントは、字幕を用いて質問に関連するセグメントを位置特定し、効率的な時間的検索を実現します。・ビジョンエージェントは、そのセグメントのキーフレームからターゲットを絞ったテキスト観察を抽出し、字幕に正確な視覚的詳細を加えます。この反復的でエージェント的なプロセスにより、損失のある初期エンコーディングを避け、稀ながらも高忠実度の証拠収集が可能となります。マスターエージェントは強化学習(GRPO)によってさらに洗練され、構造的妥当性や最終的正確性に対する報酬が与えられ、効率的な多ターン調整を教えます。新しいエピソードレベルのベンチマーク(LongTVQAおよびLongTVQA+、TVQAから集約)の結果: •エージェント設計は、エージェント以外の基準を一貫して上回ります。・グラウンディング+ビジョンを加えると、~10%の絶対的な利益が得られます。 •強化学習はオープンソースモデルを劇的に向上させます(例:Qwen2.5-7Bは性能をほぼ倍増させます)。拡張可能で解釈可能な長期文脈ビデオ推論への賢い一歩です。論文: プロジェクト: #AI #Multimodal #Agents #LongVideoQA

トップ

ランキング

お気に入り