Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Новая статья по пониманию видео: тестирую это завтра!
Понимание длинного видео остается упорным узким местом для мультимодальных LLM, большинство подходов полагаются на сильное сжатие или понижение разрешения, необратимо теряя тонкие временные и визуальные подсказки до того, как начинается рассуждение.
Новая статья "LongVideoAgent: Многоагентное рассуждение с длинными видео" решает эту проблему с помощью многоагентной структуры:
• Главный LLM организует планирование в ограниченных шагах (≤K), решая, когда собирать доказательства или завершать ответ.
• Агент привязки локализует сегменты, относящиеся к вопросу, используя субтитры для эффективного временного поиска.
• Агент зрения извлекает целевые текстовые наблюдения из ключевых кадров в этих сегментах, дополняя субтитры точными визуальными деталями.
Этот итеративный, агентный процесс избегает потерь при начальном кодировании, позволяя собирать разрозненные, но высококачественные доказательства.
Главный агент дополнительно уточняется с помощью обучения с подкреплением (GRPO) с наградами за структурную корректность и окончательную правильность, обучая эффективной многократной координации.
Результаты на новых бенчмарках на уровне эпизодов (LongTVQA и LongTVQA+, агрегированные из TVQA):
• Агентный дизайн постоянно превосходит неагентные базовые линии.
• Добавление привязки + зрения дает ~10% абсолютного прироста.
• RL значительно увеличивает производительность открытых моделей (например, Qwen2.5-7B почти удваивает производительность).
Умный шаг к масштабируемому, интерпретируемому рассуждению о видео с длинным контекстом.
Статья:
Проект:
#AI #Multimodal #Agents #LongVideoQA

Топ
Рейтинг
Избранное
