新的视频理解论文:明天测试这个! 长视频理解仍然是多模态LLM的一个顽固瓶颈,大多数方法依赖于重压缩或下采样,在推理开始之前不可逆地丢失细粒度的时间和视觉线索。 新论文“LongVideoAgent:使用长视频的多智能体推理”正面应对这一挑战,采用多智能体框架: •一个主LLM协调有限步骤(≤K)的规划,决定何时收集证据或最终确定答案。 •一个定位智能体使用字幕定位与问题相关的片段,以便进行高效的时间搜索。 •一个视觉智能体从这些片段的关键帧中提取目标文本观察,补充字幕以提供精确的视觉细节。 这一迭代的智能体过程避免了有损的前期编码,使得稀疏但高保真的证据收集成为可能。 主智能体通过强化学习(GRPO)进一步优化,奖励结构有效性和最终正确性,教会高效的多轮协调。 在新的剧集级基准(LongTVQA和LongTVQA+,从TVQA汇总)上的结果: •智能体设计始终优于非智能体基线。 •添加定位 + 视觉带来约10%的绝对增益。 •RL显著提升开源模型的性能(例如,Qwen2.5-7B的性能几乎翻倍)。 朝着可扩展、可解释的长上下文视频推理迈出了聪明的一步。 论文: 项目: #AI #Multimodal #Agents #LongVideoQA