热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
新的视频理解论文:明天测试这个!
长视频理解仍然是多模态LLM的一个顽固瓶颈,大多数方法依赖于重压缩或下采样,在推理开始之前不可逆地丢失细粒度的时间和视觉线索。
新论文“LongVideoAgent:使用长视频的多智能体推理”正面应对这一挑战,采用多智能体框架:
•一个主LLM协调有限步骤(≤K)的规划,决定何时收集证据或最终确定答案。
•一个定位智能体使用字幕定位与问题相关的片段,以便进行高效的时间搜索。
•一个视觉智能体从这些片段的关键帧中提取目标文本观察,补充字幕以提供精确的视觉细节。
这一迭代的智能体过程避免了有损的前期编码,使得稀疏但高保真的证据收集成为可能。
主智能体通过强化学习(GRPO)进一步优化,奖励结构有效性和最终正确性,教会高效的多轮协调。
在新的剧集级基准(LongTVQA和LongTVQA+,从TVQA汇总)上的结果:
•智能体设计始终优于非智能体基线。
•添加定位 + 视觉带来约10%的绝对增益。
•RL显著提升开源模型的性能(例如,Qwen2.5-7B的性能几乎翻倍)。
朝着可扩展、可解释的长上下文视频推理迈出了聪明的一步。
论文:
项目:
#AI #Multimodal #Agents #LongVideoQA

热门
排行
收藏
