La comprensione di video lunghi mette in crisi la maggior parte dei LLM multimodali. L'approccio predefinito per elaborare video di un'ora prevede di comprimere il contenuto in riassunti lossy o di ridurre drasticamente il campionamento dei fotogrammi. Questo sposta il carico di ragionamento temporale a una fase iniziale e irreversibile. Le prove dettagliate vengono perse prima che il modello inizi a ragionare. Ma cosa succederebbe se il modello potesse decidere attivamente cosa osservare, quando richiedere dettagli e quando ha raccolto abbastanza prove? Questa nuova ricerca introduce LongVideoAgent, un framework multi-agente in cui un LLM master coordina agenti specializzati invece di codificare passivamente tutto in anticipo. Il ragionamento agentico consente ai modelli di concentrarsi su clip rilevanti e raccogliere prove mirate piuttosto che sperare che le informazioni giuste sopravvivano alla compressione. L'architettura ha tre componenti. Un agente master gestisce il ragionamento e decide quale azione intraprendere a ogni passo. Un agente di grounding localizza i segmenti rilevanti per le domande all'interno della timeline dell'episodio completo. Un agente visivo estrae osservazioni mirate da fotogrammi specifici all'interno di quei segmenti. L'agente master opera per un massimo di K passi, emettendo esattamente un'azione strutturata per turno: richiedere grounding, interrogare per dettagli visivi o rispondere. L'output di ogni azione alimenta il contesto per la decisione successiva. Quando si accumulano prove sufficienti, il master produce una risposta finale. Il RL insegna all'agente master quando esplorare e quando fermarsi. L'addestramento GRPO utilizza due semplici ricompense: validità strutturale per azioni ben formate e correttezza della risposta al termine. Questo obiettivo minimo guida il coordinamento strutturato multi-turno senza supervisione densa. Su LongTVQA e LongTVQA+, i benchmark a livello di episodio aggregati da TVQA, l'approccio agentico supera costantemente le baseline non agentiche. GPT5-mini passa dal 62,4% al 71,1% con il framework multi-agente. Qwen2.5-3B migliora dal 23,5% al 47,4% dopo l'addestramento RL, quasi raddoppiando le prestazioni. Anche DeepSeek-R1-671B trae vantaggio dal design agentico. Il grounding da solo supera la baseline non agentica con il 69,0% contro il 64,3%, e aggiungendo la visione si spinge l'accuratezza al 74,8%. Carta: Impara a costruire agenti AI efficaci nella nostra accademia: