Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Înțelegerea video lungă strică majoritatea LLM-urilor multimodale.
Abordarea implicită pentru procesarea videoclipurilor de o oră implică comprimarea conținutului în rezumate cu pierderi sau reducerea agresivă a cadrelor.
Aceasta mută povara raționamentului temporal către o etapă timpurie, ireversibilă. Dovezile detaliate se pierd înainte ca modelul să înceapă să raționeze.
Dar dacă modelul ar putea decide activ ce să observe, când să interogheze detalii și când a adunat suficiente dovezi?
Această nouă cercetare introduce LongVideoAgent, un cadru multi-agent în care un master LLM coordonează agenți specializați în loc să încodifice pasiv totul de la început.
Raționamentul agentic permite modelelor să se concentreze pe clipuri relevante și să adune dovezi țintite, în loc să spere că informația corectă supraviețuiește compresiei.
Arhitectura are trei componente. Un agent maestru se ocupă de raționament și decide ce acțiune să întreprindă la fiecare pas. Un agent de ancorare localizează segmentele relevante pentru întrebări în întreaga cronologie a episodului. Un agent vizual extrage observații țintite din cadre specifice din acele segmente.
Agentul master rulează pe până la K pași, emițând exact o acțiune structurată pe tură: solicitare de grounding, interogare pentru detalii vizuale sau răspuns. Ieșirea fiecărei acțiuni intră în contextul următoarei decizii. Când se adună suficiente dovezi, maestrul produce un răspuns final.
RL îl învață pe agentul principal când să exploreze și când să se oprească. Antrenamentul GRPO folosește două recompense simple: validitatea structurală pentru acțiuni bine formate și corectitudinea răspunsurilor la terminare. Acest obiectiv minim ghidează coordonarea structurată pe mai multe viraje fără supraveghere densă.
Pe LongTVQA și LongTVQA+, benchmark-uri la nivel de episod agregate din TVQA, abordarea agentică depășește constant liniile de bază non-agentice. GPT5-mini crește de la 62,4% la 71,1% cu cadrul multi-agent. Qwen2.5-3B se îmbunătățește de la 23,5% la 47,4% după antrenamentul RL, aproape dublând performanța. Chiar și DeepSeek-R1-671B beneficiază de designul agentic.
Doar împământarea depășește linia de bază a non-agentului la 69,0% față de 64,3%, iar adăugarea vederii crește acuratețea la 74,8%.
Hârtie:
Învață să construiești agenți AI eficienți în academia noastră:

Limită superioară
Clasament
Favorite
