熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
新視頻理解論文:明天測試這個!
長視頻理解仍然是多模態 LLM 的一個頑固瓶頸,大多數方法依賴於重壓縮或降採樣,在推理開始之前不可逆地失去細緻的時間和視覺線索。
這篇新論文“LongVideoAgent:使用長視頻的多代理推理”正面對這一挑戰,採用多代理框架:
•一個主 LLM 在有限步驟(≤K)中協調計劃,決定何時收集證據或最終確定答案。
•一個基礎代理使用字幕定位與問題相關的片段,以便進行高效的時間搜索。
•一個視覺代理從這些片段的關鍵幀中提取目標文本觀察,補充字幕以提供精確的視覺細節。
這一迭代的代理過程避免了有損的前期編碼,使得稀疏但高保真的證據收集成為可能。
主代理通過強化學習(GRPO)進一步優化,對結構有效性和最終正確性給予獎勵,教會高效的多輪協調。
在新的集集級基準(LongTVQA 和 LongTVQA+,來自 TVQA)上的結果:
•代理設計始終超越非代理基準。
•添加基礎 + 視覺可獲得約 10% 的絕對增益。
•RL 顯著提升開源模型的性能(例如,Qwen2.5-7B 的性能幾乎翻倍)。
邁向可擴展、可解釋的長上下文視頻推理的聰明一步。
論文:
項目:
#AI #Multimodal #Agents #LongVideoQA

熱門
排行
收藏
