NEUE Forschung zur Verbesserung des Gedächtnisses für KI-Agenten. (Lesezeichen setzen) Wenn sich die Kontextfenster auf Millionen von Tokens skalieren, verschiebt sich der Engpass von der reinen Kapazität zur kognitiven Kontrolle. Zu wissen, was man weiß, zu wissen, was fehlt, und zu wissen, wann man aufhören sollte, ist wichtiger, als jedes Token zu verarbeiten. Längere Kontextfenster garantieren kein besseres Denken. Das liegt hauptsächlich daran, dass die Art und Weise, wie Entwickler heute mit ultra-langen Dokumenten umgehen, darin besteht, das Kontextfenster zu erweitern oder alles in einem einzigen Durchgang zu komprimieren. Aber wenn entscheidende Beweise spärlich und über eine Million Tokens verstreut sind, verwerfen passive Gedächtnisstrategien stillschweigend die verbindenden Fakten, die für mehrstufiges Denken erforderlich sind. Diese neue Forschung führt InfMem ein, einen Agenten mit begrenztem Gedächtnis, der kognitive Kontrolle im Stil von System-2 auf die Beantwortung von Fragen zu langen Dokumenten durch ein strukturiertes PRETHINK–RETRIEVE–WRITE-Protokoll anwendet. Anstatt jeden Abschnitt passiv zu komprimieren, während er durchgestreamt wird, überwacht InfMem aktiv, ob sein Gedächtnis ausreicht, um die Frage zu beantworten. Sind die aktuellen Beweise ausreichend? Was fehlt? Wo im Dokument sollte ich suchen? PRETHINK fungiert als kognitiver Controller, der entscheidet, ob er aufhören oder mehr Beweise abrufen soll. Wenn Beweislücken bestehen, synthetisiert er eine gezielte Abrufanfrage und holt relevante Passagen aus dem gesamten Dokument, einschließlich früherer Abschnitte, die er bereits passiert hat. WRITE führt dann eine gemeinsame Kompression durch, indem er die abgerufenen Beweise mit dem aktuellen Abschnitt in ein begrenztes Gedächtnis unter einem festen Budget integriert. Das Trainingsrezept verwendet ein SFT-Warmup, um die Protokollmechanik durch Destillation von Qwen3-32B zu lehren, dann wird das Verstärkungslernen verwendet, um Abruf-, Schreib- und Stop-Entscheidungen mit der Richtigkeit der Endaufgabe unter Verwendung von ergebnisbasierten Belohnungen und frühzeitiger Stop-Formung in Einklang zu bringen. Bei ultra-langen QA-Benchmarks von 32k bis 1M Tokens übertrifft InfMem MemAgent um +10,17, +11,84 und +8,23 durchschnittliche absolute Genauigkeitspunkte bei Qwen3-1.7B, Qwen3-4B und Qwen2.5-7B, jeweils. Ein 4B-Parameter-InfMem-Agent hält die Genauigkeit bis zu 1M Tokens konstant, während Standard-Baselines wie YaRN auf eine einstellige Leistung zusammenbrechen. Die Inferenzlatenz sinkt im Durchschnitt um das 3,9-fache (bis zu 5,1-fach) durch adaptive frühzeitige Stopps. Diese Gewinne übertragen sich auch auf LongBench QA, wo InfMem+RL bis zu +31,38 absolute Verbesserungen bei einzelnen Aufgaben gegenüber der YaRN-Baseline erzielt. Papier: Lerne, effektive KI-Agenten in unserer Akademie zu bauen: