Makalah pemahaman video baru: Menguji ini besok! Pemahaman video yang panjang tetap menjadi hambatan yang keras kepala untuk LLM multimoda sebagian besar pendekatan bergantung pada kompresi berat atau downsampling, secara permanen kehilangan isyarat temporal dan visual yang halus bahkan sebelum penalaran dimulai. Makalah baru "LongVideoAgent: Multi-Agent Reasoning with Long Videos" menangani hal ini secara langsung dengan kerangka kerja multi-agen: • Seorang master LLM mengatur perencanaan dalam langkah-langkah terbatas (≤K), memutuskan kapan harus mengumpulkan bukti atau menyelesaikan jawabannya. •Agen pembumian melokalkan segmen yang relevan dengan pertanyaan menggunakan subtitle untuk pencarian temporal yang efisien. • Agen penglihatan mengekstrak pengamatan tekstual yang ditargetkan dari bingkai utama di segmen tersebut, melengkapi subtitle dengan detail visual yang tepat. Proses agentik yang berulang ini menghindari pengkodean di muka yang lossy, memungkinkan pengumpulan bukti yang jarang tetapi fidelitas tinggi. Agen master disempurnakan lebih lanjut melalui pembelajaran penguatan (GRPO) dengan imbalan untuk validitas struktural dan kebenaran akhir, mengajarkan koordinasi multi-putaran yang efisien. Hasil pada tolok ukur tingkat episode baru (LongTVQA dan LongTVQA+, dikumpulkan dari TVQA): • Desain agen secara konsisten mengalahkan garis dasar non-agen. • Menambahkan grounding + vision menghasilkan ~10% keuntungan absolut. • RL meningkatkan model sumber terbuka secara dramatis (misalnya, Qwen2.5-7B hampir menggandakan kinerja). Langkah cerdas menuju penalaran video konteks panjang yang dapat diskalakan dan dapat ditafsirkan. Kertas: Proyek: #AI #Multimodal #Agents #LongVideoQA