Нова відео-робота з розумінням: Тестування цього завтра! Довге відеорозуміння залишається впертим вузьким місцем для мультимодальних LLM, більшість підходів базуються на сильному стисненні або даунсемплінгу, незворотно втрачаючи дрібні часові та візуальні сигнали ще до початку мислення. Нова стаття «LongVideoAgent: Multi-Agent Reasoning with Long Videos» безпосередньо розглядає це за допомогою мультиагентної структури: •Майстер LLM організовує планування обмеженими кроками (≤K), вирішуючи, коли збирати докази або затверджувати відповідь. • Агент заземлення локалізує сегменти, релевантні питанням, за допомогою субтитрів для ефективного часового пошуку. • Агент зору витягує цільові текстові спостереження з ключових кадрів у цих сегментах, доповнюючи субтитри точними візуальними деталями. Цей ітеративний, агентний процес уникає початкового кодування з втратами, забезпечуючи розріджений, але високоякісний збір доказів. Майстер-агент додатково вдосконалюється через підкріплене навчання (GRPO) з винагородами за структурну валідність і кінцеву коректність, навчаючи ефективній багатоходній координації. Результати нових бенчмарків на рівні епізодів (LongTVQA та LongTVQA+, агреговані з TVQA): • Агентний дизайн послідовно перевершує базові показники неагентів. •Додавання заземлення + зору дає ~10% абсолютного приросту. •RL значно підвищує відкриті моделі (наприклад, Qwen2.5-7B майже подвоює продуктивність). Розумний крок до масштабованого, інтерпретованого довгоконтекстного відеомислення. Стаття: Проєкт: #AI #Multimodal #Agents #LongVideoQA