Neues Paper zur Videoverständnis: Teste das morgen! Das Verständnis von langen Videos bleibt ein hartnäckiger Engpass für multimodale LLMs, da die meisten Ansätze auf starker Kompression oder Herunterrechnung basieren, wodurch feine zeitliche und visuelle Hinweise unwiderruflich verloren gehen, bevor das Denken überhaupt beginnt. Das neue Paper „LongVideoAgent: Multi-Agenten-Reasoning mit langen Videos“ geht dieses Problem direkt an mit einem Multi-Agenten-Rahmen: •Ein Master-LLM orchestriert die Planung in begrenzten Schritten (≤K) und entscheidet, wann Beweise gesammelt oder die Antwort finalisiert werden soll. •Ein Grounding-Agent lokalisiert frage-relevante Segmente mithilfe von Untertiteln für eine effiziente zeitliche Suche. •Ein Vision-Agent extrahiert gezielte textuelle Beobachtungen aus Schlüsselframes in diesen Segmenten und ergänzt die Untertitel mit präzisen visuellen Details. Dieser iterative, agentische Prozess vermeidet verlustbehaftete Vorabkodierung und ermöglicht eine spärliche, aber hochpräzise Beweissammlung. Der Master-Agent wird weiter durch Reinforcement Learning (GRPO) verfeinert, mit Belohnungen für strukturelle Gültigkeit und finale Richtigkeit, was eine effiziente Multi-Turn-Koordination lehrt. Ergebnisse auf neuen Episode-Level-Benchmarks (LongTVQA und LongTVQA+, aggregiert aus TVQA): •Das agentische Design übertrifft konsequent nicht-agentische Baselines. •Die Hinzufügung von Grounding + Vision führt zu ~10% absoluten Gewinnen. •RL steigert die Leistung von Open-Source-Modellen dramatisch (z.B. Qwen2.5-7B verdoppelt nahezu die Leistung). Ein kluger Schritt in Richtung skalierbares, interpretierbares Video-Reasoning mit langen Kontexten. Paper: Projekt: #AI #Multimodal #Agents #LongVideoQA