Nuovo documento sulla comprensione dei video: Testando questo domani! La comprensione dei video lunghi rimane un collo di bottiglia ostinato per i LLM multimodali; la maggior parte degli approcci si basa su una pesante compressione o riduzione della risoluzione, perdendo in modo irreversibile indizi temporali e visivi dettagliati prima che il ragionamento inizi. Il nuovo documento “LongVideoAgent: Multi-Agent Reasoning with Long Videos” affronta questo problema con un framework multi-agente: •Un LLM master orchestra la pianificazione in passi limitati (≤K), decidendo quando raccogliere prove o finalizzare la risposta. •Un agente di localizzazione localizza segmenti rilevanti per la domanda utilizzando i sottotitoli per una ricerca temporale efficiente. •Un agente visivo estrae osservazioni testuali mirate da fotogrammi chiave in quei segmenti, integrando i sottotitoli con dettagli visivi precisi. Questo processo iterativo e agentico evita la codifica iniziale con perdita, consentendo una raccolta di prove scarsa ma ad alta fedeltà. L'agente master è ulteriormente affinato tramite apprendimento per rinforzo (GRPO) con ricompense per validità strutturale e correttezza finale, insegnando una coordinazione multi-turno efficiente. Risultati su nuovi benchmark a livello di episodio (LongTVQA e LongTVQA+, aggregati da TVQA): •Il design agentico supera costantemente le baseline non agentiche. •Aggiungere localizzazione + visione produce guadagni assoluti di ~10%. •L'RL aumenta drammaticamente le prestazioni dei modelli open-source (ad es., Qwen2.5-7B quasi raddoppia le prestazioni). Un passo intelligente verso un ragionamento video a lungo termine scalabile e interpretabile. Documento: Progetto: #AI #Multimodal #Agents #LongVideoQA