Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Lång videoförståelse bryter de flesta multimodala LLM:er.
Standardmetoden för att bearbeta timslånga videor innebär att komprimera innehållet till förlustsande sammanfattningar eller aggressivt nedskära bildrutor.
Detta flyttar den tidsmässiga resonemangsbördan till ett tidigt, irreversibelt stadium. Finjusterade bevis går förlorade innan modellen ens börjar resonera.
Men tänk om modellen aktivt kunde bestämma vad som ska observeras, när den ska fråga efter detaljer och när den har samlat tillräckligt med bevis?
Denna nya forskning introducerar LongVideoAgent, ett ramverk för flera agenter där en master-LLM koordinerar specialiserade agenter istället för att passivt koda allt i förväg.
Agentiskt resonemang låter modeller fokusera på relevanta klipp och samla riktade bevis istället för att hoppas att rätt information överlever komprimering.
Arkitekturen har tre komponenter. En mästaragent hanterar resonemanget och bestämmer vilka åtgärder som ska vidtas vid varje steg. En grounding-agent lokaliserar frågerelevanta segment inom hela avsnittets tidslinje. En visionsagent extraherar riktade observationer från specifika ramar inom dessa segment.
Masteragenten kör upp till K steg och sänder exakt en strukturerad handling per tur: begär jordning, förfrågan om visuella detaljer eller svar. Varje handlings utdata matar in i kontexten för nästa beslut. När tillräckliga bevis samlats producerar mästaren ett slutgiltigt svar.
RL lär mästaragenten när han ska utforska och när han ska sluta. GRPO-träning använder två enkla belöningar: strukturell validitet för välformulerade handlingar och svarkorrekthet vid avslut. Detta minimala mål styr strukturerad fleromgångskoordinering utan tät övervakning.
På LongTVQA och LongTVQA+, avsnittsnivåbenchmarks aggregerade från TVQA, överträffar den agentiska metoden konsekvent icke-agentiska baslinjer. GPT5-mini hoppar från 62,4 % till 71,1 % med multiagent-ramverket. Qwen2,5-3B förbättras från 23,5 % till 47,4 % efter RL-träning, vilket nästan fördubblar prestationen. Även DeepSeek-R1-671B gynnas av den agentiska designen.
Grounding ensam slår icke-agentens baslinje på 69,0 % jämfört med 64,3 %, och att lägga till syn skjuter upp noggrannheten till 74,8 %.
Papper:
Lär dig att bygga effektiva AI-agenter i vår akademi:

Topp
Rankning
Favoriter
