Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NGHIÊN CỨU mới về việc cải thiện trí nhớ cho các tác nhân AI.
(đánh dấu nó)
Khi các cửa sổ ngữ cảnh mở rộng đến hàng triệu token, nút thắt chuyển từ khả năng thô sang kiểm soát nhận thức. Biết những gì bạn biết, biết những gì còn thiếu, và biết khi nào nên dừng lại quan trọng hơn việc xử lý từng token.
Các cửa sổ ngữ cảnh dài hơn không đảm bảo lý luận tốt hơn. Điều này chủ yếu là do cách mà các nhà phát triển xử lý các tài liệu siêu dài ngày nay vẫn là mở rộng cửa sổ ngữ cảnh hoặc nén mọi thứ vào một lần duy nhất.
Nhưng khi bằng chứng quyết định hiếm và rải rác trên một triệu token, các chiến lược trí nhớ thụ động lặng lẽ loại bỏ những sự thật kết nối cần thiết cho lý luận đa bước.
Nghiên cứu mới này giới thiệu InfMem, một tác nhân bộ nhớ giới hạn áp dụng kiểm soát nhận thức kiểu Hệ thống-2 cho việc trả lời câu hỏi tài liệu dài thông qua một giao thức CÂN NHẮC–TRUY VẤN–VIẾT có cấu trúc.
Thay vì thụ động nén mỗi đoạn khi nó được truyền qua, InfMem chủ động theo dõi xem bộ nhớ của nó có đủ để trả lời câu hỏi hay không. Bằng chứng hiện tại có đủ không? Cái gì còn thiếu? Tôi nên tìm ở đâu trong tài liệu?
CÂN NHẮC hoạt động như một bộ điều khiển nhận thức, quyết định xem có nên dừng lại hay truy vấn thêm bằng chứng. Khi có khoảng trống bằng chứng, nó tổng hợp một truy vấn truy vấn có mục tiêu và lấy các đoạn liên quan từ bất kỳ đâu trong tài liệu, bao gồm cả các phần trước đó mà nó đã đi qua. VIẾT sau đó thực hiện nén chung, tích hợp bằng chứng đã truy vấn với đoạn hiện tại vào một bộ nhớ giới hạn dưới một ngân sách cố định.
Công thức đào tạo sử dụng một sự khởi động SFT để dạy cơ chế giao thức thông qua chưng cất từ Qwen3-32B, sau đó học tăng cường điều chỉnh việc truy vấn, viết và quyết định dừng lại với độ chính xác của nhiệm vụ cuối cùng bằng cách sử dụng phần thưởng dựa trên kết quả và định hình dừng sớm.
Trên các chuẩn mực QA siêu dài từ 32k đến 1M token, InfMem vượt trội hơn MemAgent với +10.17, +11.84 và +8.23 điểm độ chính xác tuyệt đối trung bình trên Qwen3-1.7B, Qwen3-4B và Qwen2.5-7B, tương ứng.
Một tác nhân InfMem 4B tham số duy trì độ chính xác nhất quán lên đến 1M token, nơi các tiêu chuẩn cơ bản như YaRN sụp đổ về hiệu suất một chữ số. Độ trễ suy diễn giảm 3.9 lần trung bình (lên đến 5.1 lần) thông qua dừng sớm thích ứng.
Những lợi ích này cũng chuyển giao cho LongBench QA, nơi InfMem+RL đạt được cải thiện tuyệt đối lên đến +31.38 trên các nhiệm vụ cá nhân so với tiêu chuẩn YaRN.
Bài báo:
Học cách xây dựng các tác nhân AI hiệu quả trong học viện của chúng tôi:

Hàng đầu
Thứ hạng
Yêu thích
