Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Довге розуміння відео ламає більшість мультимодальних LLM.
Стандартний підхід до обробки годинних відео полягає у стисненні контенту до втратних резюме або агресивному зменшенні кадрів.
Це переносить тягар тимчасового мислення на ранню, незворотну стадію. Дрібні докази губляться ще до того, як модель починає міркувати.
Але що, якби модель могла активно вирішувати, що спостерігати, коли запитувати деталі і коли зібрала достатньо доказів?
Це нове дослідження вводить LongVideoAgent — мультиагентний фреймворк, де майстер LLM координує спеціалізовані агенти замість пасивного кодування всього наперед.
Агентне мислення дозволяє моделям зосереджуватися на релевантних кліпах і збирати цільові докази, а не сподіватися, що правильна інформація витримає стиснення.
Архітектура складається з трьох компонентів. Майстер-агент займається міркуванням і вирішує, які дії вжити на кожному кроці. Агент із заземлення локалізує сегменти, релевантні питанням, у повній хронології епізоду. Агент зору витягує цільові спостереження з конкретних кадрів у межах цих сегментів.
Майстер-агент виконує до K кроків, виконуючи рівно одну структуровану дію за хід: запит на заземлення, запит візуальних деталей або відповідь. Результат кожної дії впливає на контекст наступного рішення. Коли накопичується достатньо доказів, майстер дає остаточну відповідь.
RL навчає головного агента, коли досліджувати, а коли зупинятися. Навчання GRPO використовує дві прості винагороди: структурну валідність для правильно сформованих дій і правильність відповіді на момент завершення. Ця мінімальна мета керує структурованою багатоповоротною координацією без щільного нагляду.
На LongTVQA та LongTVQA+, бенчмарках на рівні епізодів, агрегованих з TVQA, агентний підхід стабільно перевершує базові показники без агентів. GPT5-mini зростає з 62,4% до 71,1% завдяки мультиагентній структурі. Qwen2.5-3B покращується з 23,5% до 47,4% після тренувань RL, майже подвоївши результати. Навіть DeepSeek-R1-671B виграє від агентного дизайну.
Лише заземлення перевершує базовий рівень без агента — 69,0% проти 64,3%, а додавання зору підвищує точність до 74,8%.
Стаття:
Навчіться створювати ефективних агентів ШІ в нашій академії:

Найкращі
Рейтинг
Вибране
