一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

新的视频理解论文：明天测试这个！长视频理解仍然是多模态LLM的一个顽固瓶颈，大多数方法依赖于重压缩或下采样，在推理开始之前不可逆地丢失细粒度的时间和视觉线索。新论文“LongVideoAgent：使用长视频的多智能体推理”正面应对这一挑战，采用多智能体框架： •一个主LLM协调有限步骤（≤K）的规划，决定何时收集证据或最终确定答案。 •一个定位智能体使用字幕定位与问题相关的片段，以便进行高效的时间搜索。 •一个视觉智能体从这些片段的关键帧中提取目标文本观察，补充字幕以提供精确的视觉细节。这一迭代的智能体过程避免了有损的前期编码，使得稀疏但高保真的证据收集成为可能。主智能体通过强化学习（GRPO）进一步优化，奖励结构有效性和最终正确性，教会高效的多轮协调。在新的剧集级基准（LongTVQA和LongTVQA+，从TVQA汇总）上的结果： •智能体设计始终优于非智能体基线。 •添加定位 + 视觉带来约10%的绝对增益。 •RL显著提升开源模型的性能（例如，Qwen2.5-7B的性能几乎翻倍）。朝着可扩展、可解释的长上下文视频推理迈出了聪明的一步。论文：项目： #AI #Multimodal #Agents #LongVideoQA