Pemahaman video yang panjang merusak sebagian besar LLM multimodal. Pendekatan default untuk memproses video berdurasi satu jam melibatkan pengompresan konten menjadi ringkasan lossy atau menurunkan frame secara agresif. Ini menggeser beban penalaran temporal ke tahap awal yang tidak dapat diubah. Bukti halus hilang bahkan sebelum model mulai bernalar. Tetapi bagaimana jika model dapat secara aktif memutuskan apa yang harus diamati, kapan harus menanyakan detailnya, dan kapan telah mengumpulkan cukup bukti? Penelitian baru ini memperkenalkan LongVideoAgent, kerangka kerja multi-agen di mana LLM master mengoordinasikan agen khusus alih-alih mengkodekan semuanya secara pasif di muka. Penalaran agen memungkinkan model fokus pada klip yang relevan dan mengumpulkan bukti yang ditargetkan daripada berharap informasi yang tepat bertahan dari kompresi. Arsitektur memiliki tiga komponen. Agen master menangani penalaran dan memutuskan tindakan apa yang harus diambil di setiap langkah. Agen pembumian melokalkan segmen yang relevan dengan pertanyaan dalam linimasa episode lengkap. Agen penglihatan mengekstrak pengamatan yang ditargetkan dari bingkai tertentu dalam segmen tersebut. Agen master berjalan hingga K langkah, memancarkan tepat satu tindakan terstruktur per giliran: membumikan permintaan, kueri untuk detail visual, atau jawaban. Output setiap tindakan dimasukkan ke dalam konteks untuk keputusan berikutnya. Ketika bukti yang cukup menumpuk, master menghasilkan jawaban akhir. RL mengajarkan agen master kapan harus menjelajahi dan kapan harus berhenti. Pelatihan GRPO menggunakan dua imbalan sederhana: validitas struktural untuk tindakan yang terbentuk dengan baik dan kebenaran jawaban saat penghentian. Tujuan minimal ini memandu koordinasi multi-putaran terstruktur tanpa pengawasan yang padat. Pada LongTVQA dan LongTVQA+, tolok ukur tingkat episode yang dikumpulkan dari TVQA, pendekatan agen secara konsisten mengungguli garis dasar non-agen. GPT5-mini melonjak dari 62,4% menjadi 71,1% dengan kerangka kerja multi-agen. Qwen2.5-3B meningkat dari 23.5% menjadi 47.4% setelah pelatihan RL, hampir dua kali lipat kinerja. Bahkan DeepSeek-R1-671B mendapat keuntungan dari desain agen. Grounding saja mengalahkan baseline non-agen pada 69,0% vs 64,3%, dan menambahkan penglihatan mendorong akurasi menjadi 74,8%. Kertas: Pelajari cara membangun agen AI yang efektif di akademi kami: