Cercetări NOI privind îmbunătățirea memoriei pentru agenții AI. (îl adaugă la favorite) Pe măsură ce ferestrele de context se extind la milioane de tokenuri, blocajul se mută de la capacitatea brută la controlul cognitiv. Să știi ce știi, să știi ce lipsește și să știi când să te oprești contează mai mult decât procesarea fiecărui token. Ferestrele de context mai lungi nu garantează un raționament mai bun. Acest lucru se datorează în mare parte faptului că modul în care dezvoltatorii gestionează astăzi documentele ultra-lungi rămâne să extindă fereastra de context sau să comprime totul într-o singură trecere. Dar atunci când dovezile decisive sunt rare și răspândite pe un milion de tokenuri, strategiile de memorie pasivă elimină în tăcere faptele de legătură necesare pentru raționamentul multi-hop. Această nouă cercetare introduce InfMem, un agent cu memorie limitată care aplică controlul cognitiv de tip System-2 la răspunsurile la întrebări cu documente lungi printr-un protocol structurat PRETHINK–RETRIEVE–WRITE. În loc să comprime pasiv fiecare segment pe măsură ce trece prin ea, InfMem monitorizează activ dacă memoria sa este suficientă pentru a răspunde la întrebare. Sunt dovezile actuale suficiente? Ce lipsește? Unde în document ar trebui să caut? PRETHINK acționează ca un controlor cognitiv, hotărând dacă să oprească sau să recupereze mai multe dovezi. Când există lacune de dovezi, sintetizează o interogare de recuperare țintită și preia pasaje relevante de oriunde în document, inclusiv din secțiunile anterioare deja trecute. WRITE efectuează apoi compresie comună, integrând dovezile recuperate cu segmentul curent într-o memorie limitată sub un buget fix. Rețeta de antrenament folosește o încălzire SFT pentru a învăța mecanica protocolului prin distilare din Qwen3-32B, apoi învățarea prin întărire aliniază recuperarea, scrierea și oprirea deciziilor cu corectitudinea sarcinii finale, folosind recompense bazate pe rezultate și modelarea opririi timpurii. La benchmark-uri QA ultra-lungi, de la 32k la 1M tokenuri, InfMem depășește MemAgent cu +10,17, +11,84 și +8,23 puncte medii absolute de acuratețe la Qwen3-1,7B, Qwen3-4B și Qwen2,5-7B, respectiv. Un agent InfMem cu un parametru 4B menține o acuratețe constantă până la 1M token-uri, unde baze standard precum YaRN se prăbușesc la performanțe de o singură cifră. Latența inferenței scade în medie cu 3,9 ori (până la 5,1x) prin oprirea timpurie adaptivă. Aceste câștiguri se transferă și la LongBench QA, unde InfMem+RL obține o îmbunătățire absolută de până la +31,38 la sarcinile individuale față de baza YaRN. Hârtie: Învață să construiești agenți AI eficienți în academia noastră: