Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Novo vídeo de entendimento: Testando isso amanhã!
O entendimento longo de vídeo continua sendo um gargalo teimoso para LLMs multimodais; a maioria das abordagens depende de forte compressão ou downsampling, perdendo irreversivelmente pistas temporais e visuais finas antes mesmo de começar o raciocínio.
O novo artigo "LongVideoAgent: Multi-Agent Reasoning with Long Videos" aborda isso de frente com uma estrutura multi-agente:
• Um LLM mestre orquestra o planejamento em etapas limitadas (≤K), decidindo quando reunir evidências ou finalizar a resposta.
• Um agente de aterramento localiza segmentos relevantes para a questão usando legendas para busca temporal eficiente.
• Um agente visual extrai observações textuais direcionadas de quadros-chave nesses segmentos, complementando as legendas com detalhes visuais precisos.
Esse processo iterativo e agentivo evita a codificação inicial com perdas, permitindo coleta de evidências esparsas, porém de alta fidelidade.
O agente mestre é ainda mais refinado por meio de aprendizado por reforço (GRPO), com recompensas pela validade estrutural e correção final, ensinando coordenação eficiente em múltiplas voltas.
Resultados dos novos benchmarks em nível de episódio (LongTVQA e LongTVQA+, agregados a partir da TVQA):
• O design agential supera consistentemente as linhas de base de não-agentes.
• Adicionar aterramento + visão gera ganhos absolutos de ~10%.
• RL impulsiona dramaticamente modelos open-source (por exemplo, Qwen2.5-7B quase dobra o desempenho).
Um passo inteligente para um raciocínio em vídeo de longo contexto escalável e interpretável.
Papel:
Projeto:
#AI #Multimodal #Agents #LongVideoQA

Melhores
Classificação
Favoritos
