Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Долгое понимание видео ломает большинство мультимодальных LLM.
Стандартный подход к обработке часовыми видео включает сжатие контента в потерянные резюме или агрессивное уменьшение кадров.
Это смещает бремя временного рассуждения на раннюю, необратимую стадию. Тонкие доказательства теряются еще до того, как модель начинает рассуждать.
Но что если модель могла бы активно решать, что наблюдать, когда запрашивать детали и когда она собрала достаточно доказательств?
Это новое исследование представляет LongVideoAgent, многоагентную структуру, где главный LLM координирует специализированные агенты вместо того, чтобы пассивно кодировать все заранее.
Агентное рассуждение позволяет моделям сосредоточиться на релевантных клипах и собирать целевые доказательства, а не надеяться, что правильная информация выживет после сжатия.
Архитектура состоит из трех компонентов. Главный агент обрабатывает рассуждения и решает, какое действие предпринять на каждом шаге. Агент привязки локализует сегменты, относящиеся к вопросу, в рамках полной временной шкалы эпизода. Визуальный агент извлекает целевые наблюдения из конкретных кадров в этих сегментах.
Главный агент работает до K шагов, выдавая ровно одно структурированное действие за ход: запрос привязки, запрос визуальных деталей или ответ. Выход каждого действия поступает в контекст для следующего решения. Когда накапливается достаточное количество доказательств, главный агент выдает окончательный ответ.
RL обучает главного агента, когда исследовать и когда остановиться. Обучение GRPO использует два простых вознаграждения: структурная валидность для хорошо сформулированных действий и правильность ответа при завершении. Эта минимальная цель направляет структурированную многоповоротную координацию без плотного надзора.
На LongTVQA и LongTVQA+, бенчмарки на уровне эпизодов, агрегированные из TVQA, агентный подход последовательно превосходит неагентные базовые линии. GPT5-mini прыгает с 62.4% до 71.1% с многоагентной структурой. Qwen2.5-3B улучшает результаты с 23.5% до 47.4% после обучения RL, почти удваивая производительность. Даже DeepSeek-R1-671B выигрывает от агентного дизайна.
Привязка сама по себе превосходит неагентную базу с 69.0% против 64.3%, а добавление визуального компонента повышает точность до 74.8%.
Статья:
Научитесь создавать эффективные AI-агенты в нашей академии:

Топ
Рейтинг
Избранное
