Lang videoforståelse bryter de fleste multimodale LLM-er. Standardmetoden for å behandle timeslange videoer innebærer å komprimere innhold til tapsbaserte sammendrag eller aggressivt nedskalere rammer. Dette flytter den tidsmessige resonnementsbyrden til et tidlig, irreversibelt stadium. Detaljerte bevis går tapt før modellen i det hele tatt begynner å resonnere. Men hva om modellen aktivt kunne bestemme hva den skal observere, når den skal spørre etter detaljer, og når den har samlet nok bevis? Denne nye forskningen introduserer LongVideoAgent, et fleragent-rammeverk hvor en master-LLM koordinerer spesialiserte agenter i stedet for passivt å kode alt på forhånd. Agentisk resonnement lar modeller fokusere på relevante klipp og samle målrettede bevis i stedet for å håpe at riktig informasjon overlever komprimering. Arkitekturen har tre komponenter. En masteragent håndterer resonnement og bestemmer hvilke handlinger som skal tas i hvert steg. En grounding-agent lokaliserer spørsmålsrelevante segmenter innenfor hele episodens tidslinje. En synsagent trekker ut målrettede observasjoner fra spesifikke rammer innenfor disse segmentene. Masteragenten kjører i opptil K trinn, og utsender nøyaktig én strukturert handling per runde: be om jording, spørre etter visuelle detaljer eller svar. Resultatet fra hver handling går inn i konteksten for neste beslutning. Når tilstrekkelig bevis har samlet seg, produserer mesteren et endelig svar. RL lærer mesteragenten når han skal utforske og når han skal stoppe. GRPO-trening bruker to enkle belønninger: strukturell validitet for velutformede handlinger og svarkorrekt ved avslutning. Dette minimale målet styrer strukturert fler-sving-koordinering uten tett tilsyn. På LongTVQA og LongTVQA+, episodenivå-benchmarks aggregert fra TVQA, overgår den agentiske tilnærmingen konsekvent ikke-agentiske baselines. GPT5-mini hopper fra 62,4 % til 71,1 % med multiagent-rammeverket. Qwen2.5-3B forbedrer seg fra 23,5 % til 47,4 % etter RL-trening, og dobler nesten prestasjonen. Selv DeepSeek-R1-671B drar nytte av det agentiske designet. Grounding alene slår ikke-agentens baseline på 69,0 % mot 64,3 %, og å legge til syn øker nøyaktigheten til 74,8 %. Artikkel: Lær å bygge effektive AI-agenter i vår akademi: