НОВЕ дослідження щодо покращення пам'яті агентів ШІ. (зберіть у закладки) Коли контекстні вікна масштабуються до мільйонів токенів, вузьке місце зміщується від сирої ємності до когнітивного контролю. Знати те, що знаєш, знати, чого бракує, і знати, коли зупинитися, важливіше за обробку кожного токену. Довші контекстні вікна не гарантують кращого аргументування. Це здебільшого пов'язано з тим, що сьогодні розробники обробляють наддовгі документи — це розширення контекстного вікна або стиснення всього в один прохід. Але коли вирішальних доказів мало і вони розкидані по мільйону токенів, пасивні стратегії пам'яті мовчки ігнорують факти, необхідні для багатохопового мислення. У цьому новому дослідженні вводиться InfMem — агент обмеженої пам'яті, який застосовує когнітивний контроль у стилі System-2 для відповідей на питання у довгих документах через структурований протокол PRETHINK–RETRIEVE–WRITE. Замість пасивного стискання кожного сегмента під час його потоку, InfMem активно відстежуває, чи достатньо його пам'яті для відповіді на питання. Чи достатньо наявних доказів? Чого бракує? Де саме в документі шукати? PRETHINK діє як когнітивний контролер, вирішуючи, чи припинити або отримати більше доказів. Коли існують прогалини в доказах, він синтезує цільовий запит для пошуку і отримує відповідні уривки з будь-якої точки документа, включаючи попередні розділи, які вже пройшов. Потім WRITE виконує спільне стиснення, інтегруючи отримані докази з поточним сегментом у обмежену пам'ять з фіксованим бюджетом. Рецепт тренувань використовує розігрів SFT для навчання механіці протоколу через дистиляцію з Qwen3-32B, а потім підкріплююче навчання узгоджує рішення з отримання, написання та зупинки з коректністю кінцевого завдання, винагороджуючи результати та формування раннього зупинки. На ультрадовгих QA-бенчмарках від 32k до 1M токенів InfMem перевершує MemAgent на +10,17, +11,84 та +8,23 середні абсолютні точні точки Qwen3-1.7B, Qwen3-4B та Qwen2.5-7B відповідно. Агент InfMem з параметрами 4B підтримує стабільну точність до 1M токенів, де стандартні базові лінії, такі як YaRN, знижуються до однозначної продуктивності. Затримка виведення зменшується в середньому у 3,9 раза (до 5,1 раза) завдяки адаптивній ранній зупинці. Ці переваги також переносяться на LongBench QA, де InfMem+RL досягає до +31,38 абсолютного покращення на окремих завданнях порівняно з базовим рівнем YaRN. Стаття: Навчіться створювати ефективних агентів ШІ в нашій академії: