Lang video begrip breekt de meeste multimodale LLM's. De standaardaanpak voor het verwerken van uur-lange video's houdt in dat de inhoud wordt samengeperst tot verliesgevende samenvattingen of agressief frames worden verlaagd. Dit verschuift de temporele redeneerlast naar een vroege, onomkeerbare fase. Fijnmazige bewijsstukken gaan verloren voordat het model zelfs maar begint met redeneren. Maar wat als het model actief zou kunnen beslissen wat te observeren, wanneer het om details moet vragen en wanneer het genoeg bewijs heeft verzameld? Dit nieuwe onderzoek introduceert LongVideoAgent, een multi-agentenframework waarbij een master LLM gespecialiseerde agenten coördineert in plaats van alles passief vooraf te coderen. Agentisch redeneren laat modellen zich richten op relevante clips en gerichte bewijsstukken verzamelen in plaats van te hopen dat de juiste informatie de compressie overleeft. De architectuur heeft drie componenten. Een masteragent behandelt redeneren en beslist welke actie op elk moment moet worden ondernomen. Een grondingsagent lokaliseert vraag-relevante segmenten binnen de volledige afleveringstijdlijn. Een visieagent extraheert gerichte observaties uit specifieke frames binnen die segmenten. De masteragent draait tot K stappen, waarbij precies één gestructureerde actie per beurt wordt uitgegeven: vraag om gronding, vraag om visuele details of geef antwoord. De output van elke actie voedt de context voor de volgende beslissing. Wanneer er voldoende bewijs is verzameld, produceert de master een definitief antwoord. RL leert de masteragent wanneer te verkennen en wanneer te stoppen. GRPO-training gebruikt twee eenvoudige beloningen: structurele geldigheid voor goed gevormde acties en antwoordcorrectheid bij beëindiging. Dit minimale doel leidt gestructureerde multi-turn coördinatie zonder dichte supervisie. Op LongTVQA en LongTVQA+, aflevering-niveau benchmarks geaggregeerd van TVQA, presteert de agentische aanpak consequent beter dan niet-agentische baselines. GPT5-mini springt van 62,4% naar 71,1% met het multi-agentenframework. Qwen2.5-3B verbetert van 23,5% naar 47,4% na RL-training, bijna verdubbelt de prestaties. Zelfs DeepSeek-R1-671B profiteert van het agentische ontwerp. Gronding alleen verslaat de niet-agent baseline met 69,0% tegen 64,3%, en het toevoegen van visie verhoogt de nauwkeurigheid naar 74,8%. Paper: Leer effectieve AI-agenten te bouwen in onze academie: