Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Novo artigo sobre compreensão de vídeo: Testando isto amanhã!
A compreensão de vídeos longos continua a ser um gargalo teimoso para LLMs multimodais, pois a maioria das abordagens depende de compressão pesada ou downsampling, perdendo irreversivelmente pistas temporais e visuais detalhadas antes que o raciocínio comece.
O novo artigo “LongVideoAgent: Raciocínio Multi-Agente com Vídeos Longos” aborda isso diretamente com uma estrutura de múltiplos agentes:
• Um LLM mestre orquestra o planejamento em passos limitados (≤K), decidindo quando reunir evidências ou finalizar a resposta.
• Um agente de ancoragem localiza segmentos relevantes para a pergunta usando legendas para uma busca temporal eficiente.
• Um agente de visão extrai observações textuais direcionadas de quadros-chave nesses segmentos, complementando as legendas com detalhes visuais precisos.
Este processo iterativo e agente evita codificação inicial com perda, permitindo a coleta de evidências esparsas, mas de alta fidelidade.
O agente mestre é ainda refinado através de aprendizado por reforço (GRPO) com recompensas por validade estrutural e correção final, ensinando coordenação eficiente em múltiplas interações.
Resultados em novos benchmarks de nível de episódio (LongTVQA e LongTVQA+, agregados do TVQA):
• O design agente consistentemente supera as linhas de base não-agente.
• Adicionar ancoragem + visão resulta em ganhos absolutos de ~10%.
• O RL aumenta dramaticamente o desempenho de modelos de código aberto (por exemplo, Qwen2.5-7B quase dobra o desempenho).
Um passo inteligente em direção a um raciocínio de vídeo de longo contexto escalável e interpretável.
Artigo:
Projeto:
#AI #Multimodal #Agents #LongVideoQA

Top
Classificação
Favoritos
