Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A compreensão de vídeos longos quebra a maioria dos LLMs multimodais.
A abordagem padrão para processar vídeos de uma hora envolve a compressão do conteúdo em resumos com perda ou a redução agressiva da amostragem de quadros.
Isso transfere o ônus do raciocínio temporal para uma fase inicial e irreversível. Evidências detalhadas são perdidas antes que o modelo comece a raciocinar.
Mas e se o modelo pudesse decidir ativamente o que observar, quando consultar detalhes e quando já reuniu evidências suficientes?
Esta nova pesquisa apresenta o LongVideoAgent, uma estrutura multi-agente onde um LLM mestre coordena agentes especializados em vez de codificar passivamente tudo de antemão.
O raciocínio agente permite que os modelos se concentrem em clipes relevantes e reúnam evidências direcionadas, em vez de esperar que a informação correta sobreviva à compressão.
A arquitetura tem três componentes. Um agente mestre lida com o raciocínio e decide qual ação tomar em cada etapa. Um agente de ancoragem localiza segmentos relevantes para a pergunta dentro da linha do tempo do episódio completo. Um agente de visão extrai observações direcionadas de quadros específicos dentro desses segmentos.
O agente mestre opera por até K etapas, emitindo exatamente uma ação estruturada por turno: solicitar ancoragem, consultar detalhes visuais ou responder. A saída de cada ação alimenta o contexto para a próxima decisão. Quando evidências suficientes se acumulam, o mestre produz uma resposta final.
O RL ensina ao agente mestre quando explorar e quando parar. O treinamento GRPO utiliza duas recompensas simples: validade estrutural para ações bem formadas e correção da resposta na terminação. Este objetivo mínimo orienta a coordenação estruturada de múltiplas etapas sem supervisão densa.
No LongTVQA e LongTVQA+, benchmarks a nível de episódio agregados do TVQA, a abordagem agente supera consistentemente as linhas de base não-agente. O GPT5-mini salta de 62,4% para 71,1% com a estrutura multi-agente. O Qwen2.5-3B melhora de 23,5% para 47,4% após o treinamento RL, quase dobrando o desempenho. Até o DeepSeek-R1-671B se beneficia do design agente.
A ancoragem sozinha supera a linha de base não-agente em 69,0% contra 64,3%, e adicionar visão eleva a precisão para 74,8%.
Artigo:
Aprenda a construir agentes de IA eficazes em nossa academia:

Top
Classificação
Favoritos
