NUEVA investigación sobre la mejora de la memoria para Agentes de IA. (guárdalo en marcadores) A medida que las ventanas de contexto escalan a millones de tokens, el cuello de botella se desplaza de la capacidad bruta al control cognitivo. Saber lo que sabes, saber lo que falta y saber cuándo detenerse importa más que procesar cada token. Ventanas de contexto más largas no garantizan un mejor razonamiento. Esto se debe en gran parte a que la forma en que los desarrolladores manejan documentos ultra-largos hoy en día sigue siendo expandir la ventana de contexto o comprimir todo en un solo pase. Pero cuando la evidencia decisiva es escasa y está dispersa a través de un millón de tokens, las estrategias de memoria pasiva silenciosamente descartan los hechos de conexión necesarios para el razonamiento de múltiples saltos. Esta nueva investigación introduce InfMem, un agente de memoria limitada que aplica control cognitivo al estilo del Sistema-2 para la respuesta a preguntas de documentos largos a través de un protocolo estructurado PRETHINK–RETRIEVE–WRITE. En lugar de comprimir pasivamente cada segmento a medida que fluye, InfMem monitorea activamente si su memoria es suficiente para responder a la pregunta. ¿Es suficiente la evidencia actual? ¿Qué falta? ¿Dónde en el documento debería mirar? PRETHINK actúa como un controlador cognitivo, decidiendo si detenerse o recuperar más evidencia. Cuando existen brechas de evidencia, sintetiza una consulta de recuperación específica y obtiene pasajes relevantes de cualquier parte del documento, incluidas secciones anteriores que ya ha pasado. WRITE luego realiza una compresión conjunta, integrando la evidencia recuperada con el segmento actual en una memoria limitada bajo un presupuesto fijo. La receta de entrenamiento utiliza un calentamiento SFT para enseñar la mecánica del protocolo a través de la destilación de Qwen3-32B, luego el aprendizaje por refuerzo alinea la recuperación, la escritura y las decisiones de detención con la corrección de la tarea final utilizando recompensas basadas en resultados y modelado de parada temprana. En los benchmarks de QA ultra-largos de 32k a 1M tokens, InfMem supera a MemAgent en +10.17, +11.84 y +8.23 puntos de precisión absoluta promedio en Qwen3-1.7B, Qwen3-4B y Qwen2.5-7B, respectivamente. Un agente InfMem de 4B parámetros mantiene una precisión consistente hasta 1M tokens, donde las líneas base estándar como YaRN colapsan a un rendimiento de un solo dígito. La latencia de inferencia se reduce en un promedio de 3.9x (hasta 5.1x) mediante una detención temprana adaptativa. Estas ganancias también se transfieren a LongBench QA, donde InfMem+RL logra hasta +31.38 de mejora absoluta en tareas individuales sobre la línea base de YaRN. Artículo: Aprende a construir agentes de IA efectivos en nuestra academia: