Nouă lucrare video de înțelegere: Testez asta mâine! Înțelegerea video pe termen lung rămâne un blocaj încăpățânat pentru LLM-urile multimodale; majoritatea abordărilor se bazează pe compresie puternică sau downsampling, pierzând ireversibil indicii temporale și vizuale fine înainte ca raționamentul să înceapă. Noul articol "LongVideoAgent: Multi-Agent Reasoning with Long Videos" abordează direct acest subiect printr-un cadru multi-agent: • Un master LLM orchestrează planificarea în pași delimitati (≤K), hotărând când să adune dovezi sau să finalizeze răspunsul. • Un agent de împământare localizează segmentele relevante pentru întrebare folosind subtitrări pentru o căutare temporală eficientă. • Un agent vizual extrage observații textuale țintite din cadrele cheie din acele segmente, completând subtitrările cu detalii vizuale precise. Acest proces iterativ și agentic evită codificarea inițială cu pierderi, permițând colectarea de dovezi rare, dar de înaltă fidelitate. Agentul master este rafinat suplimentar prin învățare prin întărire (GRPO), cu recompense pentru validitatea structurală și corectitudinea finală, învățând o coordonare eficientă pe mai multe ture. Rezultate la noile benchmark-uri la nivel de episoade (LongTVQA și LongTVQA+, agregate din TVQA): • Designul agentic depășește constant liniile de bază ale non-agenților. • Adăugarea de împământare + vedere produce câștiguri absolute de ~10%. • RL crește dramatic modelele open-source (de exemplu, Qwen2.5-7B aproape dublează performanța). Un pas inteligent către raționamentul video scalabil și interpretabil pe termen lung. Hârtie: Proiect: #AI #Multimodal #Agents #LongVideoQA