Novo vídeo de entendimento: Testando isso amanhã! O entendimento longo de vídeo continua sendo um gargalo teimoso para LLMs multimodais; a maioria das abordagens depende de forte compressão ou downsampling, perdendo irreversivelmente pistas temporais e visuais finas antes mesmo de começar o raciocínio. O novo artigo "LongVideoAgent: Multi-Agent Reasoning with Long Videos" aborda isso de frente com uma estrutura multi-agente: • Um LLM mestre orquestra o planejamento em etapas limitadas (≤K), decidindo quando reunir evidências ou finalizar a resposta. • Um agente de aterramento localiza segmentos relevantes para a questão usando legendas para busca temporal eficiente. • Um agente visual extrai observações textuais direcionadas de quadros-chave nesses segmentos, complementando as legendas com detalhes visuais precisos. Esse processo iterativo e agentivo evita a codificação inicial com perdas, permitindo coleta de evidências esparsas, porém de alta fidelidade. O agente mestre é ainda mais refinado por meio de aprendizado por reforço (GRPO), com recompensas pela validade estrutural e correção final, ensinando coordenação eficiente em múltiplas voltas. Resultados dos novos benchmarks em nível de episódio (LongTVQA e LongTVQA+, agregados a partir da TVQA): • O design agential supera consistentemente as linhas de base de não-agentes. • Adicionar aterramento + visão gera ganhos absolutos de ~10%. • RL impulsiona dramaticamente modelos open-source (por exemplo, Qwen2.5-7B quase dobra o desempenho). Um passo inteligente para um raciocínio em vídeo de longo contexto escalável e interpretável. Papel: Projeto: #AI #Multimodal #Agents #LongVideoQA