Việc hiểu video dài phá vỡ hầu hết các LLM đa phương thức. Cách tiếp cận mặc định để xử lý video dài một giờ liên quan đến việc nén nội dung thành các tóm tắt mất dữ liệu hoặc giảm kích thước khung hình một cách mạnh mẽ. Điều này chuyển gánh nặng lý luận tạm thời sang một giai đoạn đầu tiên không thể đảo ngược. Bằng chứng chi tiết bị mất trước khi mô hình bắt đầu lý luận. Nhưng nếu mô hình có thể chủ động quyết định những gì cần quan sát, khi nào cần truy vấn chi tiết và khi nào nó đã thu thập đủ bằng chứng thì sao? Nghiên cứu mới này giới thiệu LongVideoAgent, một khung đa tác nhân nơi một LLM chính điều phối các tác nhân chuyên biệt thay vì mã hóa mọi thứ một cách thụ động ngay từ đầu. Lý luận tác nhân cho phép các mô hình tập trung vào các clip liên quan và thu thập bằng chứng mục tiêu thay vì hy vọng thông tin đúng sẽ sống sót qua quá trình nén. Kiến trúc có ba thành phần. Một tác nhân chính xử lý lý luận và quyết định hành động nào sẽ thực hiện ở mỗi bước. Một tác nhân định vị xác định các đoạn liên quan đến câu hỏi trong toàn bộ dòng thời gian tập phim. Một tác nhân thị giác trích xuất các quan sát mục tiêu từ các khung hình cụ thể trong các đoạn đó. Tác nhân chính chạy trong tối đa K bước, phát ra chính xác một hành động có cấu trúc mỗi lượt: yêu cầu định vị, truy vấn chi tiết hình ảnh, hoặc trả lời. Đầu ra của mỗi hành động được đưa vào ngữ cảnh cho quyết định tiếp theo. Khi đủ bằng chứng tích lũy, tác nhân chính đưa ra câu trả lời cuối cùng. RL dạy tác nhân chính khi nào nên khám phá và khi nào nên dừng lại. Đào tạo GRPO sử dụng hai phần thưởng đơn giản: tính hợp lệ cấu trúc cho các hành động được hình thành tốt và độ chính xác của câu trả lời khi kết thúc. Mục tiêu tối thiểu này hướng dẫn sự phối hợp có cấu trúc nhiều lượt mà không cần giám sát dày đặc. Trên LongTVQA và LongTVQA+, các tiêu chuẩn cấp tập phim được tổng hợp từ TVQA, cách tiếp cận tác nhân liên tục vượt trội hơn các cơ sở không tác nhân. GPT5-mini tăng từ 62.4% lên 71.1% với khung đa tác nhân. Qwen2.5-3B cải thiện từ 23.5% lên 47.4% sau khi đào tạo RL, gần như gấp đôi hiệu suất. Ngay cả DeepSeek-R1-671B cũng có lợi từ thiết kế tác nhân. Chỉ định vị đã đánh bại cơ sở không tác nhân với 69.0% so với 64.3%, và việc thêm thị giác đẩy độ chính xác lên 74.8%. Bài báo: Học cách xây dựng các tác nhân AI hiệu quả trong học viện của chúng tôi: