NUOVE ricerche per migliorare la memoria degli agenti AI. (aggiungilo ai segnalibri) Man mano che le finestre di contesto si espandono fino a milioni di token, il collo di bottiglia passa dalla capacità grezza al controllo cognitivo. Sapere ciò che sai, sapere cosa manca e sapere quando fermarsi è più importante che elaborare ogni token. Finestre di contesto più lunghe non garantiscono un ragionamento migliore. Questo è in gran parte dovuto al fatto che il modo in cui gli sviluppatori gestiscono documenti ultra-lunghi oggi rimane quello di espandere la finestra di contesto o comprimere tutto in un'unica passata. Ma quando le prove decisive sono scarse e disperse su un milione di token, le strategie di memoria passive scartano silenziosamente i fatti di collegamento necessari per il ragionamento multi-hop. Questa nuova ricerca introduce InfMem, un agente a memoria limitata che applica il controllo cognitivo in stile Sistema-2 per il question answering su documenti lunghi attraverso un protocollo strutturato PRETHINK–RETRIEVE–WRITE. Invece di comprimere passivamente ogni segmento mentre scorre, InfMem monitora attivamente se la sua memoria è sufficiente per rispondere alla domanda. Le prove attuali sono sufficienti? Cosa manca? Dove nel documento dovrei guardare? PRETHINK funge da controllore cognitivo, decidendo se fermarsi o recuperare ulteriori prove. Quando esistono lacune nelle prove, sintetizza una query di recupero mirata e recupera passaggi pertinenti da qualsiasi parte del documento, comprese le sezioni precedenti che ha già superato. WRITE esegue quindi una compressione congiunta, integrando le prove recuperate con il segmento attuale in una memoria limitata sotto un budget fisso. La ricetta di addestramento utilizza un riscaldamento SFT per insegnare la meccanica del protocollo attraverso la distillazione da Qwen3-32B, quindi l'apprendimento per rinforzo allinea il recupero, la scrittura e le decisioni di arresto con la correttezza del compito finale utilizzando ricompense basate sui risultati e la modellazione dell'arresto anticipato. Su benchmark QA ultra-lunghi da 32k a 1M token, InfMem supera MemAgent di +10.17, +11.84 e +8.23 punti di accuratezza assoluta media su Qwen3-1.7B, Qwen3-4B e Qwen2.5-7B, rispettivamente. Un agente InfMem con 4B di parametri mantiene un'accuratezza costante fino a 1M di token, dove le baseline standard come YaRN collassano a prestazioni a una sola cifra. La latenza di inferenza diminuisce in media di 3.9x (fino a 5.1x) grazie a un arresto anticipato adattivo. Questi guadagni si trasferiscono anche a LongBench QA, dove InfMem+RL raggiunge fino a +31.38 di miglioramento assoluto su compiti individuali rispetto alla baseline YaRN. Documento: Impara a costruire agenti AI efficaci nella nostra accademia: