Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nový video porozumitelský papír: Zítra ho testuji!
Porozumění dlouhým videem zůstává tvrdohlavým úzkým hrdlem pro multimodální LLM. Většina přístupů spoléhá na silnou kompresi nebo downsampling, což nevratně ztrácí jemné časové a vizuální stopy ještě před začátkem uvažování.
Nový článek "LongVideoAgent: Multi-Agent Reasoning with Long Videos" se této problematice věnuje přímo s rámcem více agentů:
•Hlavní LLM koordinuje plánování v omezených krocích (≤K), kdy rozhoduje, kdy shromáždit důkazy nebo dokončit odpověď.
•Uzemňovací agent lokalizuje segmenty relevantní k otázce pomocí titulků pro efektivní časové vyhledávání.
• Vision agent extrahuje cílené textové pozorování z klíčových snímků v těchto segmentech a doplňuje titulky přesnými vizuálními detaily.
Tento iterativní, agentický proces zabraňuje ztrátovému kódování na začátku, což umožňuje řídký, ale vysoce věrný sběr důkazů.
Hlavní agent je dále zdokonalován pomocí posilovaného učení (GRPO) s odměnami za strukturální validitu a konečnou správnost, což učí efektivní vícekolovou koordinaci.
Výsledky nových benchmarků na úrovni epizod (LongTVQA a LongTVQA+, agregováno z TVQA):
•Agentický design konzistentně překonává neagentní základní hodnoty.
•Přidání uzemnění + zraku přináší ~10 % absolutních zisků.
•RL dramaticky zvyšuje open-source modely (např. Qwen2.5-7B téměř zdvojnásobí výkon).
Chytrý krok směrem k škálovatelnému, interpretovatelnému dlouhokontextovému video uvažování.
Článek:
Projekt:
#AI #Multimodal #Agents #LongVideoQA

Top
Hodnocení
Oblíbené
