A compreensão de vídeos longos quebra a maioria dos LLMs multimodais. A abordagem padrão para processar vídeos de uma hora envolve a compressão do conteúdo em resumos com perda ou a redução agressiva da amostragem de quadros. Isso transfere o ônus do raciocínio temporal para uma fase inicial e irreversível. Evidências detalhadas são perdidas antes que o modelo comece a raciocinar. Mas e se o modelo pudesse decidir ativamente o que observar, quando consultar detalhes e quando já reuniu evidências suficientes? Esta nova pesquisa apresenta o LongVideoAgent, uma estrutura multi-agente onde um LLM mestre coordena agentes especializados em vez de codificar passivamente tudo de antemão. O raciocínio agente permite que os modelos se concentrem em clipes relevantes e reúnam evidências direcionadas, em vez de esperar que a informação correta sobreviva à compressão. A arquitetura tem três componentes. Um agente mestre lida com o raciocínio e decide qual ação tomar em cada etapa. Um agente de ancoragem localiza segmentos relevantes para a pergunta dentro da linha do tempo do episódio completo. Um agente de visão extrai observações direcionadas de quadros específicos dentro desses segmentos. O agente mestre opera por até K etapas, emitindo exatamente uma ação estruturada por turno: solicitar ancoragem, consultar detalhes visuais ou responder. A saída de cada ação alimenta o contexto para a próxima decisão. Quando evidências suficientes se acumulam, o mestre produz uma resposta final. O RL ensina ao agente mestre quando explorar e quando parar. O treinamento GRPO utiliza duas recompensas simples: validade estrutural para ações bem formadas e correção da resposta na terminação. Este objetivo mínimo orienta a coordenação estruturada de múltiplas etapas sem supervisão densa. No LongTVQA e LongTVQA+, benchmarks a nível de episódio agregados do TVQA, a abordagem agente supera consistentemente as linhas de base não-agente. O GPT5-mini salta de 62,4% para 71,1% com a estrutura multi-agente. O Qwen2.5-3B melhora de 23,5% para 47,4% após o treinamento RL, quase dobrando o desempenho. Até o DeepSeek-R1-671B se beneficia do design agente. A ancoragem sozinha supera a linha de base não-agente em 69,0% contra 64,3%, e adicionar visão eleva a precisão para 74,8%. Artigo: Aprenda a construir agentes de IA eficazes em nossa academia: