長視頻理解打破了大多數多模態 LLM。 處理長達一小時的視頻的默認方法涉及將內容壓縮為有損摘要或大幅下採樣幀。 這將時間推理的負擔轉移到早期的不可逆階段。在模型開始推理之前,細微的證據就已經丟失。 但如果模型可以主動決定觀察什麼、何時查詢細節以及何時收集到足夠的證據呢? 這項新研究介紹了 LongVideoAgent,一個多代理框架,其中一個主 LLM 協調專門的代理,而不是被動地提前編碼所有內容。 代理推理讓模型專注於相關片段並收集針對性的證據,而不是希望正確的信息在壓縮中存活下來。 該架構有三個組件。一個主代理處理推理並決定在每一步採取什麼行動。一個基礎代理在整個劇集時間線中定位與問題相關的片段。一個視覺代理從這些片段中的特定幀提取針對性的觀察。 主代理運行最多 K 步,每次回合發出一個結構化的行動:請求基礎、查詢視覺細節或回答。每個行動的輸出都會進入下一個決策的上下文中。當足夠的證據累積時,主代理會產生最終答案。 強化學習教導主代理何時探索和何時停止。GRPO 訓練使用兩個簡單的獎勵:結構有效性(針對良好形成的行動)和終止時的答案正確性。這一最小目標指導結構化的多回合協調,而無需密集的監督。 在 LongTVQA 和 LongTVQA+ 上,從 TVQA 聚合的劇集級基準中,代理方法始終優於非代理基準。GPT5-mini 在多代理框架下從 62.4% 飆升至 71.1%。Qwen2.5-3B 在強化學習訓練後從 23.5% 提高到 47.4%,幾乎翻倍了性能。即使是 DeepSeek-R1-671B 也從代理設計中獲益。 僅基礎就以 69.0% 對 64.3% 超越了非代理基準,並且添加視覺將準確性推高至 74.8%。 論文: 在我們的學院學習如何構建有效的 AI 代理: