Penelitian BARU tentang peningkatan memori untuk Agen AI. (tandai) Saat jendela konteks menskalakan ke jutaan token, kemacetan bergeser dari kapasitas mentah ke kontrol kognitif. Mengetahui apa yang Anda ketahui, mengetahui apa yang hilang, dan mengetahui kapan harus berhenti lebih penting daripada memproses setiap token. Jendela konteks yang lebih panjang tidak menjamin penalaran yang lebih baik. Ini sebagian besar karena cara pengembang menangani dokumen ultra-panjang saat ini tetap memperluas jendela konteks atau mengompresi semuanya menjadi satu lintasan. Tetapi ketika bukti yang menentukan jarang dan tersebar di satu juta token, strategi memori pasif diam-diam membuang fakta menjembatani yang diperlukan untuk penalaran multi-hop. Penelitian baru ini memperkenalkan InfMem, agen memori terbatas yang menerapkan kontrol kognitif gaya System-2 untuk menjawab pertanyaan dokumen panjang melalui protokol PRETHINK-RETRIEVE-WRITE terstruktur. Alih-alih mengompresi setiap segmen secara pasif saat mengalir, InfMem secara aktif memantau apakah memorinya cukup untuk menjawab pertanyaan. Apakah bukti saat ini cukup? Apa yang hilang? Di mana dalam dokumen saya harus melihat? PRETHINK bertindak sebagai pengontrol kognitif, memutuskan apakah akan menghentikan atau mengambil lebih banyak bukti. Ketika ada kesenjangan bukti, itu mensintesis kueri pengambilan yang ditargetkan dan mengambil bagian yang relevan dari mana saja dalam dokumen, termasuk bagian sebelumnya yang telah dilewati. WRITE kemudian melakukan kompresi bersama, mengintegrasikan bukti yang diambil dengan segmen saat ini ke dalam memori terbatas di bawah anggaran tetap. Resep pelatihan menggunakan pemanasan SFT untuk mengajarkan mekanika protokol melalui penyulingan dari Qwen3-32B, kemudian pembelajaran penguatan menyelaraskan pengambilan, penulisan, dan penghentian keputusan dengan kebenaran tugas akhir menggunakan hadiah berbasis hasil dan pembentukan penghentian awal. Pada tolok ukur QA ultra-panjang dari token 32k hingga 1M, InfMem mengungguli MemAgent masing-masing sebesar +10,17, +11,84, dan +8,23 pada Qwen3-1,7B, Qwen3-4B, dan Qwen2,5-7B. Agen InfMem parameter 4B mempertahankan akurasi yang konsisten hingga 1 juta token, di mana garis besar standar seperti YaRN runtuh ke kinerja satu digit. Latensi inferensi turun rata-rata 3,9x (hingga 5,1x) melalui penghentian awal adaptif. Keuntungan ini juga ditransfer ke LongBench QA, di mana InfMem+RL mencapai peningkatan absolut hingga +31,38 pada tugas individu di atas baseline YaRN. Kertas: Pelajari cara membangun agen AI yang efektif di akademi kami: