Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bài báo mới về hiểu video: Thử nghiệm điều này vào ngày mai!
Hiểu video dài vẫn là một nút thắt cứng đầu cho các LLM đa phương thức, hầu hết các phương pháp dựa vào nén nặng hoặc giảm mẫu, mất đi các tín hiệu tạm thời và hình ảnh tinh vi một cách không thể đảo ngược trước khi việc suy luận bắt đầu.
Bài báo mới "LongVideoAgent: Lập luận Đa tác nhân với Video Dài" giải quyết vấn đề này một cách trực tiếp với một khung đa tác nhân:
• Một LLM chính điều phối việc lập kế hoạch trong các bước giới hạn (≤K), quyết định khi nào thu thập chứng cứ hoặc hoàn thiện câu trả lời.
• Một tác nhân định vị xác định các đoạn liên quan đến câu hỏi bằng cách sử dụng phụ đề để tìm kiếm tạm thời hiệu quả.
• Một tác nhân thị giác trích xuất các quan sát văn bản mục tiêu từ các khung hình chính trong các đoạn đó, bổ sung phụ đề với các chi tiết hình ảnh chính xác.
Quá trình tác nhân này lặp đi lặp lại tránh việc mã hóa mất mát ngay từ đầu, cho phép thu thập chứng cứ thưa thớt nhưng có độ trung thực cao.
Tác nhân chính còn được tinh chỉnh thêm thông qua học tăng cường (GRPO) với phần thưởng cho tính hợp lệ cấu trúc và độ chính xác cuối cùng, dạy cách phối hợp nhiều lượt hiệu quả.
Kết quả trên các tiêu chuẩn cấp tập mới (LongTVQA và LongTVQA+, tổng hợp từ TVQA):
• Thiết kế tác nhân liên tục vượt qua các cơ sở không tác nhân.
• Thêm định vị + thị giác mang lại ~10% lợi ích tuyệt đối.
• RL tăng cường các mô hình mã nguồn mở một cách đáng kể (ví dụ: Qwen2.5-7B gần như gấp đôi hiệu suất).
Một bước thông minh hướng tới việc lập luận video dài ngữ cảnh có thể mở rộng và có thể giải thích.
Bài báo:
Dự án:
#AI #Multimodal #Agents #LongVideoQA

Hàng đầu
Thứ hạng
Yêu thích
