Novo artigo sobre compreensão de vídeo: Testando isto amanhã! A compreensão de vídeos longos continua a ser um gargalo teimoso para LLMs multimodais, pois a maioria das abordagens depende de compressão pesada ou downsampling, perdendo irreversivelmente pistas temporais e visuais detalhadas antes que o raciocínio comece. O novo artigo “LongVideoAgent: Raciocínio Multi-Agente com Vídeos Longos” aborda isso diretamente com uma estrutura de múltiplos agentes: • Um LLM mestre orquestra o planejamento em passos limitados (≤K), decidindo quando reunir evidências ou finalizar a resposta. • Um agente de ancoragem localiza segmentos relevantes para a pergunta usando legendas para uma busca temporal eficiente. • Um agente de visão extrai observações textuais direcionadas de quadros-chave nesses segmentos, complementando as legendas com detalhes visuais precisos. Este processo iterativo e agente evita codificação inicial com perda, permitindo a coleta de evidências esparsas, mas de alta fidelidade. O agente mestre é ainda refinado através de aprendizado por reforço (GRPO) com recompensas por validade estrutural e correção final, ensinando coordenação eficiente em múltiplas interações. Resultados em novos benchmarks de nível de episódio (LongTVQA e LongTVQA+, agregados do TVQA): • O design agente consistentemente supera as linhas de base não-agente. • Adicionar ancoragem + visão resulta em ganhos absolutos de ~10%. • O RL aumenta dramaticamente o desempenho de modelos de código aberto (por exemplo, Qwen2.5-7B quase dobra o desempenho). Um passo inteligente em direção a um raciocínio de vídeo de longo contexto escalável e interpretável. Artigo: Projeto: #AI #Multimodal #Agents #LongVideoQA