Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La comprensión de videos largos rompe la mayoría de los LLM multimodales.
El enfoque predeterminado para procesar videos de una hora implica comprimir el contenido en resúmenes con pérdida o reducir drásticamente la frecuencia de los fotogramas.
Esto desplaza la carga de razonamiento temporal a una etapa temprana e irreversible. La evidencia detallada se pierde antes de que el modelo comience a razonar.
Pero, ¿y si el modelo pudiera decidir activamente qué observar, cuándo consultar detalles y cuándo ha reunido suficiente evidencia?
Esta nueva investigación presenta LongVideoAgent, un marco de múltiples agentes donde un LLM maestro coordina agentes especializados en lugar de codificar pasivamente todo de antemano.
El razonamiento agente permite a los modelos centrarse en clips relevantes y reunir evidencia específica en lugar de esperar que la información correcta sobreviva a la compresión.
La arquitectura tiene tres componentes. Un agente maestro maneja el razonamiento y decide qué acción tomar en cada paso. Un agente de localización localiza segmentos relevantes para la pregunta dentro de la línea de tiempo del episodio completo. Un agente de visión extrae observaciones específicas de fotogramas concretos dentro de esos segmentos.
El agente maestro opera durante hasta K pasos, emitiendo exactamente una acción estructurada por turno: solicitar localización, consultar detalles visuales o responder. La salida de cada acción se incorpora al contexto para la siguiente decisión. Cuando se acumula suficiente evidencia, el maestro produce una respuesta final.
El aprendizaje por refuerzo enseña al agente maestro cuándo explorar y cuándo detenerse. El entrenamiento GRPO utiliza dos recompensas simples: validez estructural para acciones bien formadas y corrección de respuesta al finalizar. Este objetivo mínimo guía la coordinación estructurada de múltiples turnos sin supervisión densa.
En LongTVQA y LongTVQA+, los benchmarks a nivel de episodio agregados de TVQA, el enfoque agente supera consistentemente las líneas base no agentes. GPT5-mini salta del 62.4% al 71.1% con el marco de múltiples agentes. Qwen2.5-3B mejora del 23.5% al 47.4% después del entrenamiento por refuerzo, casi duplicando el rendimiento. Incluso DeepSeek-R1-671B se beneficia del diseño agente.
La localización por sí sola supera la línea base no agente con un 69.0% frente a un 64.3%, y agregar visión eleva la precisión al 74.8%.
Artículo:
Aprende a construir agentes de IA efectivos en nuestra academia:

Parte superior
Clasificación
Favoritos
