Nuevo artículo de explicación en vídeo: ¡Lo probo mañana! La comprensión a largo plazo de vídeo sigue siendo un obstinado cuello de botella para los LLMs multimodales; la mayoría de los enfoques dependen de una compresión o muestreo reducido intenso, perdiendo irreversiblemente señales temporales y visuales de grano fino antes de que comience siquiera el razonamiento. El nuevo artículo "LongVideoAgent: Multi-Agent Reasoning with Long Videos" aborda esto de frente con un marco multi-agente: • Un LLM maestro orquesta la planificación en pasos acotados (≤K), decidiendo cuándo reunir pruebas o finalizar la respuesta. • Un agente de conexión a tierra localiza segmentos relevantes para la pregunta usando subtítulos para una búsqueda temporal eficiente. •Un agente visual extrae observaciones textuales dirigidas de fotogramas clave en esos segmentos, complementando los subtítulos con detalles visuales precisos. Este proceso iterativo y agente evita la codificación inicial con pérdida, permitiendo una recogida de evidencia escasa pero de alta fidelidad. El agente maestro se refina aún más mediante aprendizaje por refuerzo (GRPO), con recompensas por la validez estructural y la corrección final, enseñando una coordinación eficiente en varios turnos. Resultados de los nuevos benchmarks a nivel de episodio (LongTVQA y LongTVQA+, agregados de TVQA): •El diseño agente supera consistentemente las líneas base de los no agentes. •Añadir conexión a tierra + visión produce un ~10% de ganancias absolutas. • RL impulsa drásticamente los modelos de código abierto (por ejemplo, Qwen2.5-7B casi duplica el rendimiento). Un paso inteligente hacia un razonamiento escalable e interpretable en vídeo de contexto largo. Papel: Proyecto: #AI #Multimodal #Agents #LongVideoQA