Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La comprensión en vídeo largo rompe la mayoría de los LLMs multimodales.
El enfoque por defecto para procesar vídeos de una hora consiste en comprimir contenido en resúmenes con pérdida o reducir agresivamente los fotogramas.
Esto traslada la carga del razonamiento temporal a una etapa temprana e irreversible. La evidencia detallada se pierde antes incluso de que el modelo empiece a razonar.
Pero, ¿y si el modelo pudiera decidir activamente qué observar, cuándo consultar detalles y cuándo ha recopilado suficientes pruebas?
Esta nueva investigación introduce LongVideoAgent, un marco multiagente donde un LLM maestro coordina agentes especializados en lugar de codificar todo pasivamente desde el principio.
El razonamiento agente permite a los modelos centrarse en clips relevantes y recopilar pruebas específicas en lugar de esperar que la información correcta sobreviva a la compresión.
La arquitectura tiene tres componentes. Un agente maestro se encarga del razonamiento y decide qué acción tomar en cada paso. Un agente de conexión localiza segmentos relevantes para preguntas dentro de la línea temporal completa del episodio. Un agente visual extrae observaciones dirigidas de marcos específicos dentro de esos segmentos.
El agente maestro se ejecuta durante hasta K pasos, emitiendo exactamente una acción estructurada por turno: solicitar conexión a tierra, consultar detalles visuales o responder. La salida de cada acción alimenta el contexto para la siguiente decisión. Cuando se acumula suficiente evidencia, el maestro produce una respuesta final.
La vida real enseña al agente maestro cuándo explorar y cuándo detenerse. El entrenamiento de GRPO utiliza dos recompensas sencillas: validez estructural para acciones bien formadas y corrección de la respuesta al terminar. Este objetivo mínimo guía la coordinación estructurada de varios turnos sin supervisión densa.
En LongTVQA y LongTVQA+, benchmarks a nivel de episodio agregados de TVQA, el enfoque agente supera consistentemente a las líneas base no agentes. GPT5-mini pasa del 62,4% al 71,1% con el framework multiagente. Qwen2.5-3B mejora del 23,5% al 47,4% tras el entrenamiento en RL, casi duplicando el rendimiento. Incluso DeepSeek-R1-671B se beneficia del diseño agente.
Solo el grounding supera la línea base de los no agentes en un 69,0% frente al 64,3%, y añadir visión eleva la precisión al 74,8%.
Papel:
Aprende a crear agentes de IA efectivos en nuestra academia:

Populares
Ranking
Favoritas
