Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nytt video-förståelsepapper: Testar detta imorgon!
Lång videoförståelse är fortfarande en envis flaskhals för multimodala LLM:er; de flesta metoder förlitar sig på kraftig kompression eller nedskärning, vilket irreversibelt förlorar finkorniga temporala och visuella ledtrådar innan resonemanget ens börjar.
Den nya artikeln "LongVideoAgent: Multi-Agent Reasoning with Long Vides" tar sig an detta direkt med en multi-agent-ram:
•En master-LLM orkestrerar planeringen i begränsade steg (≤K) och bestämmer när bevis ska samlas in eller svaret slutföras.
•En jordningsagent lokaliserar frågerelevanta segment med hjälp av undertexter för effektiv tidssökning.
•En visionsagent extraherar riktade textuella observationer från nyckelbilder i dessa segment och kompletterar undertexter med precisa visuella detaljer.
Denna iterativa, agentiska process undviker förlustbelagd förskottskodning och möjliggör sparsam men högupplöst bevisinsamling.
Masteragenten förfinas vidare via förstärkningsinlärning (GRPO) med belöningar för strukturell validitet och slutlig korrekthet, vilket lär ut effektiv flerturskoordination.
Resultat på nya avsnittsnivåbenchmarks (LongTVQA och LongTVQA+, aggregerade från TVQA):
•Agentisk design slår konsekvent icke-agentbaslinjer.
• Att lägga till jordning + syn ger ~10 % absoluta vinster.
•RL förbättrar open source-modeller dramatiskt (t.ex. Qwen2.5-7B nästan fördubblar prestandan).
Ett smart steg mot skalbar, tolkbar långkontextvideo-resonemang.
Papper:
Projekt:
#AI #Multimodal #Agents #LongVideoQA

Topp
Rankning
Favoriter
