Nowy artykuł dotyczący zrozumienia wideo: Testuję to jutro! Zrozumienie długich wideo pozostaje upartym wąskim gardłem dla multimodalnych LLM, ponieważ większość podejść polega na silnej kompresji lub próbkowaniu, nieodwracalnie tracąc drobne temporalne i wizualne wskazówki, zanim jeszcze zacznie się rozumowanie. Nowy artykuł „LongVideoAgent: Multi-Agent Reasoning with Long Videos” stawia czoła temu problemowi z ramą wieloagentową: • Mistrzowski LLM koordynuje planowanie w ograniczonych krokach (≤K), decydując, kiedy zbierać dowody lub finalizować odpowiedź. • Agent lokalizujący określa segmenty istotne dla pytania, korzystając z napisów do efektywnego przeszukiwania temporalnego. • Agent wizji wyodrębnia ukierunkowane obserwacje tekstowe z kluczowych klatek w tych segmentach, uzupełniając napisy o precyzyjne szczegóły wizualne. Ten iteracyjny, agentowy proces unika stratnej wstępnej kodowania, umożliwiając rzadkie, ale wysokiej jakości zbieranie dowodów. Mistrzowski agent jest dodatkowo udoskonalany za pomocą uczenia przez wzmocnienie (GRPO) z nagrodami za poprawność strukturalną i ostateczną, ucząc efektywnej koordynacji wieloetapowej. Wyniki na nowych benchmarkach na poziomie epizodów (LongTVQA i LongTVQA+, zebrane z TVQA): • Projektowanie agentowe konsekwentnie przewyższa podstawy bezagentowe. • Dodanie lokalizacji + wizji przynosi ~10% absolutnych zysków. • RL dramatycznie zwiększa wydajność modeli open-source (np. Qwen2.5-7B niemal podwaja wydajność). Inteligentny krok w kierunku skalowalnego, interpretowalnego rozumowania wideo w długim kontekście. Artykuł: Projekt: #AI #Multimodal #Agents #LongVideoQA