Dlouhé video porozumění většině multimodálních LLM rozbíjí. Výchozí přístup ke zpracování hodinových videí spočívá v kompresi obsahu do ztrátových shrnutí nebo agresivním downsampling snímků. To přesouvá časové uvažování do rané, nevratné fáze. Detailní důkazy se ztrácejí ještě dříve, než model začne uvažovat. Ale co kdyby model mohl aktivně rozhodovat, co pozorovat, kdy vyhledávat podrobnosti a kdy shromáždí dostatek důkazů? Tento nový výzkum představuje LongVideoAgent, multiagentní framework, kde hlavní LLM koordinuje specializované agenty místo pasivního kódování všeho předem. Agentické uvažování umožňuje modelům soustředit se na relevantní klipy a shromažďovat cílené důkazy místo toho, aby doufali, že správné informace přežijí kompresi. Architektura má tři složky. Hlavní agent se stará o uvažování a rozhoduje, jaké kroky podniknout v každém kroku. Uzemňovací agent lokalizuje segmenty relevantní pro otázky v rámci celé časové osy epizody. Vizuální agent extrahuje cílená pozorování z konkrétních rámců v těchto segmentech. Hlavní agent běží až k krokům, přičemž za kolo vygeneruje přesně jednu strukturovanou akci: požadavek na uzemnění, dotaz na vizuální detaily nebo odpověď. Výstup každé akce se připojuje k kontextu pro další rozhodnutí. Když se nashromáždí dostatečné důkazy, mistr vytvoří konečnou odpověď. RL učí hlavního agenta, kdy má zkoumat a kdy přestat. Školení GRPO využívá dvě jednoduché odměny: strukturální platnost dobře formulovaných akcí a správnost odpovědí při ukončení. Tento minimální cíl řídí strukturovanou vícekolovou koordinaci bez hustého dohledu. Na LongTVQA a LongTVQA+, benchmarkech na úrovni epizod agregovaných z TVQA, agentický přístup konzistentně překonává neagentní základní hodnoty. GPT5-mini s multi-agentním rámcem vyskočil z 62,4 % na 71,1 %. Qwen2.5-3B se po tréninku RL zlepšil z 23,5 % na 47,4 %, což téměř zdvojnásobilo výkon. Dokonce i DeepSeek-R1-671B těží z tohoto agentického designu. Samotné uzemnění překoná neagentní základní hodnotu s 69,0 % oproti 64,3 % a přidání zraku zvyšuje přesnost na 74,8 %. Článek: Naučte se vytvářet efektivní AI agenty v naší akademii: