Das Verständnis von langen Videos überfordert die meisten multimodalen LLMs. Der Standardansatz zur Verarbeitung von stundenlangen Videos besteht darin, Inhalte in verlustbehaftete Zusammenfassungen zu komprimieren oder Frames aggressiv herabzusampeln. Dies verlagert die zeitliche Denkbelastung auf eine frühe, irreversible Phase. Feingliedrige Beweise gehen verloren, bevor das Modell überhaupt mit dem Denken beginnt. Aber was wäre, wenn das Modell aktiv entscheiden könnte, was es beobachten möchte, wann es nach Details fragen sollte und wann es genug Beweise gesammelt hat? Diese neue Forschung führt LongVideoAgent ein, ein Multi-Agenten-Framework, bei dem ein Master-LLM spezialisierte Agenten koordiniert, anstatt alles passiv im Voraus zu kodieren. Agentisches Denken ermöglicht es Modellen, sich auf relevante Clips zu konzentrieren und gezielte Beweise zu sammeln, anstatt darauf zu hoffen, dass die richtigen Informationen die Kompression überstehen. Die Architektur hat drei Komponenten. Ein Master-Agent übernimmt das Denken und entscheidet, welche Aktion in jedem Schritt zu ergreifen ist. Ein Grounding-Agent lokalisiert frage-relevante Segmente innerhalb des gesamten Episodenzeitplans. Ein Vision-Agent extrahiert gezielte Beobachtungen aus spezifischen Frames innerhalb dieser Segmente. Der Master-Agent läuft bis zu K Schritte und gibt genau eine strukturierte Aktion pro Runde aus: Anfrage zur Verankerung, Abfrage visueller Details oder Antwort. Die Ausgabe jeder Aktion fließt in den Kontext für die nächste Entscheidung ein. Wenn genügend Beweise gesammelt sind, produziert der Master eine endgültige Antwort. RL lehrt dem Master-Agenten, wann er erkunden und wann er aufhören soll. Das GRPO-Training verwendet zwei einfache Belohnungen: strukturelle Gültigkeit für gut geformte Aktionen und Antwortkorrektheit bei Beendigung. Dieses minimale Ziel leitet die strukturierte Koordination über mehrere Runden ohne dichte Aufsicht. Bei LongTVQA und LongTVQA+, episodenbezogene Benchmarks, die aus TVQA aggregiert wurden, übertrifft der agentische Ansatz konsequent nicht-agentische Baselines. GPT5-mini springt von 62,4 % auf 71,1 % mit dem Multi-Agenten-Framework. Qwen2.5-3B verbessert sich von 23,5 % auf 47,4 % nach RL-Training und verdoppelt fast die Leistung. Sogar DeepSeek-R1-671B profitiert vom agentischen Design. Allein das Grounding übertrifft die nicht-agentische Basislinie mit 69,0 % gegenüber 64,3 %, und die Hinzufügung von Vision steigert die Genauigkeit auf 74,8 %. Papier: Lerne, effektive KI-Agenten in unserer Akademie zu bauen: