Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nytt video-forståelsespapir: Tester dette i morgen!
Lang videoforståelse forblir en sta flaskehals for multimodale LLM-er; de fleste tilnærminger baserer seg på tung kompresjon eller nedprøving, og mister irreversibelt finkornede tids- og visuelle signaler før resonnement i det hele tatt begynner.
Den nye artikkelen «LongVideoAgent: Multi-Agent Reasoning with Long Videos» tar for seg dette direkte med et fleragent-rammeverk:
•En master-LLM orkestrerer planleggingen i avgrensede trinn (≤K), og bestemmer når bevis skal samles eller svaret ferdigstilles.
•En jordingsagent lokaliserer spørsmålsrelevante segmenter ved hjelp av undertekster for effektiv tidssøk.
•En synsagent henter ut målrettede tekstuelle observasjoner fra nøkkelbilder i disse segmentene, og supplerer undertekster med presise visuelle detaljer.
Denne iterative, agentiske prosessen unngår tapsbasert forhåndskoding, og muliggjør sparsom, men høyoppløselig bevisinnsamling.
Masteragenten videreforbedres via forsterkningslæring (GRPO) med belønninger for strukturell validitet og endelig korrekthet, og lærer effektiv koordinering med flere vendinger.
Resultater på nye episodenivå-benchmarks (LongTVQA og LongTVQA+, aggregert fra TVQA):
•Agentisk design slår konsekvent ikke-agent-baselines.
•Å legge til jording + syn gir ~10 % absolutt gevinst.
•RL øker åpen kildekode-modeller dramatisk (f.eks. Qwen2.5-7B nesten dobler ytelsen).
Et smart steg mot skalerbar, tolkbar langkontekstvideo-resonnement.
Artikkel:
Prosjekt:
#AI #Multimodal #Agents #LongVideoQA

Topp
Rangering
Favoritter
