Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nowy artykuł dotyczący zrozumienia wideo: Testuję to jutro!
Zrozumienie długich wideo pozostaje upartym wąskim gardłem dla multimodalnych LLM, ponieważ większość podejść polega na silnej kompresji lub próbkowaniu, nieodwracalnie tracąc drobne temporalne i wizualne wskazówki, zanim jeszcze zacznie się rozumowanie.
Nowy artykuł „LongVideoAgent: Multi-Agent Reasoning with Long Videos” stawia czoła temu problemowi z ramą wieloagentową:
• Mistrzowski LLM koordynuje planowanie w ograniczonych krokach (≤K), decydując, kiedy zbierać dowody lub finalizować odpowiedź.
• Agent lokalizujący określa segmenty istotne dla pytania, korzystając z napisów do efektywnego przeszukiwania temporalnego.
• Agent wizji wyodrębnia ukierunkowane obserwacje tekstowe z kluczowych klatek w tych segmentach, uzupełniając napisy o precyzyjne szczegóły wizualne.
Ten iteracyjny, agentowy proces unika stratnej wstępnej kodowania, umożliwiając rzadkie, ale wysokiej jakości zbieranie dowodów.
Mistrzowski agent jest dodatkowo udoskonalany za pomocą uczenia przez wzmocnienie (GRPO) z nagrodami za poprawność strukturalną i ostateczną, ucząc efektywnej koordynacji wieloetapowej.
Wyniki na nowych benchmarkach na poziomie epizodów (LongTVQA i LongTVQA+, zebrane z TVQA):
• Projektowanie agentowe konsekwentnie przewyższa podstawy bezagentowe.
• Dodanie lokalizacji + wizji przynosi ~10% absolutnych zysków.
• RL dramatycznie zwiększa wydajność modeli open-source (np. Qwen2.5-7B niemal podwaja wydajność).
Inteligentny krok w kierunku skalowalnego, interpretowalnego rozumowania wideo w długim kontekście.
Artykuł:
Projekt:
#AI #Multimodal #Agents #LongVideoQA

Najlepsze
Ranking
Ulubione
