NUEVA investigación sobre cómo mejorar la memoria para agentes de IA. (lo marca) A medida que las ventanas de contexto se expanden a millones de tokens, el cuello de botella pasa de la capacidad bruta al control cognitivo. Saber lo que sabes, saber lo que falta y saber cuándo parar importa más que procesar cada token. Ventanas de contexto más largas no garantizan un mejor razonamiento. Esto se debe en gran parte a que la forma en que los desarrolladores manejan documentos ultra-largos hoy en día sigue ampliando la ventana de contexto o comprimiendo todo en una sola pasada. Pero cuando la evidencia decisiva es escasa y dispersa entre un millón de tokens, las estrategias de memoria pasiva descartan silenciosamente los hechos puente necesarios para el razonamiento de múltiples saltos. Esta nueva investigación introduce InfMem, un agente de memoria acotada que aplica el control cognitivo al estilo System-2 a la respuesta a preguntas de documentos largos mediante un protocolo estructurado PRETHINK–RETRIEVE–WRITE. En lugar de comprimir pasivamente cada segmento mientras fluye, InfMem monitoriza activamente si su memoria es suficiente para responder a la pregunta. ¿Son suficientes las pruebas actuales? ¿Qué falta? ¿Dónde debería mirar en el documento? PRETHINK actúa como un controlador cognitivo, decidiendo si detener o recuperar más pruebas. Cuando existen lagunas en la evidencia, sintetiza una consulta de recuperación dirigida y recupera pasajes relevantes desde cualquier parte del documento, incluidas secciones anteriores que ya ha superado. WRITE realiza entonces compresión conjunta, integrando la evidencia recuperada con el segmento actual en una memoria acotada bajo un presupuesto fijo. La receta de entrenamiento utiliza un calentamiento SFT para enseñar la mecánica del protocolo mediante la destilación de Qwen3-32B, luego el aprendizaje por refuerzo alinea la recuperación, escritura y detener decisiones con la corrección de la tarea final usando recompensas basadas en resultados y modelado de parada temprana. En benchmarks de QA ultra-largos de 32k a 1M tokens, InfMem supera a MemAgent por +10,17, +11,84 y +8,23 puntos de precisión absoluta promedio en Qwen3-1,7B, Qwen3-4B y Qwen2,5-7B, respectivamente. Un agente InfMem con parámetro 4B mantiene una precisión consistente hasta 1M de tokens, donde las líneas base estándar como YaRN se colapsan a un rendimiento de un solo dígito. La latencia de inferencia cae de media 3,9 veces (hasta 5,1x) mediante la parada adaptativa temprana. Estas mejoras también se trasladan a la QA en LongBench, donde InfMem+RL logra hasta +31,38 de mejora absoluta en tareas individuales respecto a la línea base de YaRN. Papel: Aprende a crear agentes de IA efectivos en nuestra academia: