新視頻理解論文:明天測試這個! 長視頻理解仍然是多模態 LLM 的一個頑固瓶頸,大多數方法依賴於重壓縮或降採樣,在推理開始之前不可逆地失去細緻的時間和視覺線索。 這篇新論文“LongVideoAgent:使用長視頻的多代理推理”正面對這一挑戰,採用多代理框架: •一個主 LLM 在有限步驟(≤K)中協調計劃,決定何時收集證據或最終確定答案。 •一個基礎代理使用字幕定位與問題相關的片段,以便進行高效的時間搜索。 •一個視覺代理從這些片段的關鍵幀中提取目標文本觀察,補充字幕以提供精確的視覺細節。 這一迭代的代理過程避免了有損的前期編碼,使得稀疏但高保真的證據收集成為可能。 主代理通過強化學習(GRPO)進一步優化,對結構有效性和最終正確性給予獎勵,教會高效的多輪協調。 在新的集集級基準(LongTVQA 和 LongTVQA+,來自 TVQA)上的結果: •代理設計始終超越非代理基準。 •添加基礎 + 視覺可獲得約 10% 的絕對增益。 •RL 顯著提升開源模型的性能(例如,Qwen2.5-7B 的性能幾乎翻倍)。 邁向可擴展、可解釋的長上下文視頻推理的聰明一步。 論文: 項目: #AI #Multimodal #Agents #LongVideoQA