Nuevo artículo sobre comprensión de video: ¡Lo probaré mañana! La comprensión de videos largos sigue siendo un obstáculo persistente para los LLMs multimodales; la mayoría de los enfoques dependen de una compresión pesada o submuestreo, perdiendo de manera irreversible pistas temporales y visuales detalladas antes de que comience el razonamiento. El nuevo artículo “LongVideoAgent: Razonamiento Multi-Agente con Videos Largos” aborda esto de manera directa con un marco de múltiples agentes: •Un LLM maestro orquesta la planificación en pasos limitados (≤K), decidiendo cuándo reunir evidencia o finalizar la respuesta. •Un agente de localización localiza segmentos relevantes para la pregunta utilizando subtítulos para una búsqueda temporal eficiente. •Un agente de visión extrae observaciones textuales específicas de los fotogramas clave en esos segmentos, complementando los subtítulos con detalles visuales precisos. Este proceso iterativo y agente evita la codificación inicial con pérdida, permitiendo la recolección de evidencia escasa pero de alta fidelidad. El agente maestro se refina aún más a través del aprendizaje por refuerzo (GRPO) con recompensas por validez estructural y corrección final, enseñando una coordinación eficiente en múltiples turnos. Resultados en nuevos benchmarks a nivel de episodios (LongTVQA y LongTVQA+, agregados de TVQA): •El diseño agente supera consistentemente las líneas base no-agente. •Agregar localización + visión produce ganancias absolutas de ~10%. •El aprendizaje por refuerzo mejora drásticamente los modelos de código abierto (por ejemplo, Qwen2.5-7B casi duplica el rendimiento). Un paso inteligente hacia un razonamiento de video de contexto largo escalable e interpretable. Artículo: Proyecto: #AI #Multimodal #Agents #LongVideoQA