Новая статья по пониманию видео: тестирую это завтра! Понимание длинного видео остается упорным узким местом для мультимодальных LLM, большинство подходов полагаются на сильное сжатие или понижение разрешения, необратимо теряя тонкие временные и визуальные подсказки до того, как начинается рассуждение. Новая статья "LongVideoAgent: Многоагентное рассуждение с длинными видео" решает эту проблему с помощью многоагентной структуры: • Главный LLM организует планирование в ограниченных шагах (≤K), решая, когда собирать доказательства или завершать ответ. • Агент привязки локализует сегменты, относящиеся к вопросу, используя субтитры для эффективного временного поиска. • Агент зрения извлекает целевые текстовые наблюдения из ключевых кадров в этих сегментах, дополняя субтитры точными визуальными деталями. Этот итеративный, агентный процесс избегает потерь при начальном кодировании, позволяя собирать разрозненные, но высококачественные доказательства. Главный агент дополнительно уточняется с помощью обучения с подкреплением (GRPO) с наградами за структурную корректность и окончательную правильность, обучая эффективной многократной координации. Результаты на новых бенчмарках на уровне эпизодов (LongTVQA и LongTVQA+, агрегированные из TVQA): • Агентный дизайн постоянно превосходит неагентные базовые линии. • Добавление привязки + зрения дает ~10% абсолютного прироста. • RL значительно увеличивает производительность открытых моделей (например, Qwen2.5-7B почти удваивает производительность). Умный шаг к масштабируемому, интерпретируемому рассуждению о видео с длинным контекстом. Статья: Проект: #AI #Multimodal #Agents #LongVideoQA