НОВЫЕ исследования по улучшению памяти для AI-агентов. (сохраните это) По мере увеличения контекстных окон до миллионов токенов узкое место смещается с сырой емкости на когнитивный контроль. Знание того, что вы знаете, знание того, чего не хватает, и знание, когда остановиться, имеет большее значение, чем обработка каждого токена. Более длинные контекстные окна не гарантируют лучшего рассуждения. Это в значительной степени связано с тем, что разработчики сегодня обрабатывают ультра-длинные документы, расширяя контекстное окно или сжимая все в один проход. Но когда решающие доказательства разбросаны и разбросаны по миллиону токенов, пассивные стратегии памяти тихо отбрасывают связывающие факты, необходимые для многопроходного рассуждения. Это новое исследование представляет InfMem, агент с ограниченной памятью, который применяет когнитивный контроль в стиле Системы-2 для ответов на вопросы по длинным документам через структурированный протокол PRETHINK–RETRIEVE–WRITE. Вместо того чтобы пассивно сжимать каждый сегмент по мере его потока, InfMem активно контролирует, достаточно ли его памяти для ответа на вопрос. Достаточно ли текущих доказательств? Чего не хватает? Где в документе мне следует искать? PRETHINK действует как когнитивный контроллер, решая, следует ли остановиться или получить больше доказательств. Когда существуют пробелы в доказательствах, он синтезирует целевой запрос на извлечение и получает соответствующие отрывки из любого места в документе, включая ранее пройденные разделы. WRITE затем выполняет совместное сжатие, интегрируя извлеченные доказательства с текущим сегментом в ограниченную память в рамках фиксированного бюджета. Рецепт обучения использует разогрев SFT, чтобы обучить механику протокола через дистилляцию из Qwen3-32B, затем обучение с подкреплением согласует извлечение, написание и решения о остановке с правильностью конечной задачи, используя вознаграждения на основе результатов и формирование ранней остановки. На ультра-длинных тестах QA от 32k до 1M токенов InfMem превосходит MemAgent на +10.17, +11.84 и +8.23 средних абсолютных баллов точности на Qwen3-1.7B, Qwen3-4B и Qwen2.5-7B соответственно. Агент InfMem с 4B параметрами поддерживает стабильную точность до 1M токенов, где стандартные базовые линии, такие как YaRN, падают до однозначной производительности. Задержка вывода уменьшается в среднем в 3.9 раза (до 5.1 раза) благодаря адаптивной ранней остановке. Эти достижения также переносятся на LongBench QA, где InfMem+RL достигает до +31.38 абсолютного улучшения по отдельным задачам по сравнению с базовой линией YaRN. Статья: Научитесь создавать эффективные AI-агенты в нашей академии: